論文の概要: TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.21988v1
- Date: Mon, 23 Mar 2026 13:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.696716
- Title: TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning
- Title(参考訳): TREX:多目的強化学習のための軌道記述
- Authors: Dilina Rajapakse, Juan C. Rosero, Ivana Dusparic,
- Abstract要約: 多目的強化学習ポリシーを説明するための軌道ベース説明可能性フレームワーク
多目的強化学習ポリシーを説明するための軌道ベース説明可能性フレームワーク
- 参考スコア(独自算出の注目度): 1.2922946578413577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has demonstrated its ability to solve complex decision-making problems in a variety of domains, by optimizing reward signals obtained through interaction with an environment. However, many real-world scenarios involve multiple, potentially conflicting objectives that cannot be easily represented by a single scalar reward. Multi-Objective Reinforcement Learning (MORL) addresses this limitation by enabling agents to optimize several objectives simultaneously, explicitly reasoning about trade-offs between them. However, the ``black box" nature of the RL models makes the decision process behind chosen objective trade-offs unclear. Current Explainable Reinforcement Learning (XRL) methods are typically designed for single scalar rewards and do not account for explanations with respect to distinct objectives or user preferences. To address this gap, in this paper we propose TREX, a Trajectory based Explainability framework to explain Multi-objective Reinforcement Learning policies, based on trajectory attribution. TREX generates trajectories directly from the learned expert policy, across different user preferences and clusters them into semantically meaningful temporal segments. We quantify the influence of these behavioural segments on the Pareto trade-off by training complementary policies that exclude specific clusters, measuring the resulting relative deviation on the observed rewards and actions compared to the original expert policy. Experiments on multi-objective MuJoCo environments - HalfCheetah, Ant and Swimmer, demonstrate the framework's ability to isolate and quantify the specific behavioural patterns.
- Abstract(参考訳): 強化学習(RL)は,環境との相互作用によって得られる報酬信号を最適化することにより,様々な領域における複雑な意思決定問題を解決する能力を示した。
しかし、現実のシナリオの多くは、単一のスカラー報酬で簡単に表現できない複数の、潜在的に矛盾する目標を含んでいる。
MORL(Multi-Objective Reinforcement Learning)は、エージェントが複数の目的を同時に最適化し、それらの間のトレードオフを明示的に推論することで、この制限に対処する。
しかし、RLモデルの『ブラックボックス』の性質は、選択された客観的トレードオフの背後にある決定プロセスを明確にしている。
現在の説明可能な強化学習法(XRL)は、通常、単一のスカラー報酬のために設計されており、異なる目的やユーザの好みに関する説明は考慮していない。
本稿では,トラジェクティブに基づく説明可能性フレームワークであるTREXを提案し,トラジェクティブ属性に基づく多目的強化学習ポリシーを説明する。
TREXは、学習した専門家ポリシーから直接、さまざまなユーザの好みにまたがってトラジェクトリを生成し、それらを意味的に意味のある時間セグメントにまとめる。
我々は,これらの行動セグメントがパレート・トレードオフに与える影響を,特定のクラスターを除外する補完的な政策を訓練し,結果として得られた報酬や行動に対する相対的な偏差を,元の専門家の政策と比較することによって定量化する。
マルチオブジェクトの MuJoCo 環境での実験 - HalfCheetah、Ant、Swimmer は、フレームワークが特定の振る舞いパターンを分離し定量化する能力を実証している。
関連論文リスト
- Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback [14.81819959351561]
我々は、多目的RLAIFが、努力的な報酬工学を使わずに、異なるユーザの優先順位を反映したバランスの取れたトレードオフをもたらすポリシーを作成できることを示した。
RLAIFを多目的RLに統合することは、ユーザによるポリシー学習へのスケーラブルなパスを提供する、と我々は主張する。
論文 参考訳(メタデータ) (2026-02-24T09:47:25Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Behaviour Discovery and Attribution for Explainable Reinforcement Learning [6.123880364445758]
強化学習(RL)エージェントへの信頼を構築するには、なぜ特定の決定を下すのかを理解する必要がある。
既存の説明可能性の手法は、しばしば単一状態または全軌道に焦点をあてる。
動作発見とセグメンテーションのための完全にオフラインで報酬のないフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T08:06:00Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation [6.876580618014666]
本稿では,識別器の正則化のための報酬距離推定を用いて,逆強化学習(IRL)を適用する。
本稿では,多目的制御タスクにおいて,ParIRLが他のIRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:51:39Z) - Value function interference and greedy action selection in value-based
multi-objective reinforcement learning [1.4206639868377509]
多目的強化学習(MORL)アルゴリズムは従来の強化学習(RL)を拡張する
ユーザのユーティリティ関数が、ベクター値と類似のユーティリティレベルを幅広くマップしている場合、これは干渉を引き起こす可能性があることを示す。
我々は、欲求行動を特定する際にランダムなタイブレークを避けることは、値関数の干渉によって生じる問題を改善できるが、完全には克服できないことを実証的に示す。
論文 参考訳(メタデータ) (2024-02-09T09:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。