論文の概要: Know your Trajectory -- Trustworthy Reinforcement Learning deployment through Importance-Based Trajectory Analysis
- arxiv url: http://arxiv.org/abs/2512.06917v1
- Date: Sun, 07 Dec 2025 16:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.585742
- Title: Know your Trajectory -- Trustworthy Reinforcement Learning deployment through Importance-Based Trajectory Analysis
- Title(参考訳): トラジェクティブを知る - 重要度に基づくトラジェクトリ分析による信頼できる強化学習の展開
- Authors: Clifford F, Devika Jay, Abhishek Sarkar, Satheesh K Perepu, Santhosh G S, Kaushik Dey, Balaraman Ravindran,
- Abstract要約: 我々は、新しい状態重要度を定義・集約することで、軌道全体のランク付けを行う新しい枠組みを導入する。
本研究では,エージェント体験の異種集合から最適軌跡の同定に成功していることを示す。
標準のOpenAI Gym環境における実験により,提案する重要度指標が最適行動の同定に有効であることが検証された。
- 参考スコア(独自算出の注目度): 6.7842735984907465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Reinforcement Learning (RL) agents are increasingly deployed in real-world applications, ensuring their behavior is transparent and trustworthy is paramount. A key component of trust is explainability, yet much of the work in Explainable RL (XRL) focuses on local, single-step decisions. This paper addresses the critical need for explaining an agent's long-term behavior through trajectory-level analysis. We introduce a novel framework that ranks entire trajectories by defining and aggregating a new state-importance metric. This metric combines the classic Q-value difference with a "radical term" that captures the agent's affinity to reach its goal, providing a more nuanced measure of state criticality. We demonstrate that our method successfully identifies optimal trajectories from a heterogeneous collection of agent experiences. Furthermore, by generating counterfactual rollouts from critical states within these trajectories, we show that the agent's chosen path is robustly superior to alternatives, thereby providing a powerful "Why this, and not that?" explanation. Our experiments in standard OpenAI Gym environments validate that our proposed importance metric is more effective at identifying optimal behaviors compared to classic approaches, offering a significant step towards trustworthy autonomous systems.
- Abstract(参考訳): 強化学習(RL)エージェントは、現実世界のアプリケーションにますますデプロイされるので、その振る舞いが透明で信頼性の高いことが最重要である。
信頼性の重要な構成要素は説明責任であるが、説明可能なRL(XRL)の作業の多くは、ローカルな単一ステップの決定に焦点を当てている。
本稿では, エージェントの長期的行動を説明するために, 軌跡レベル解析による重要なニーズに対処する。
我々は、新しい状態重要度を定義・集約することで、軌道全体のランク付けを行う新しい枠組みを導入する。
この計量は古典的なQ値の差を「ラジカル項」と組み合わせ、エージェントの目標に到達する親和性を捉え、よりニュアンスな状態臨界度を提供する。
本研究では,エージェント体験の異種集合から最適軌跡の同定に成功していることを示す。
さらに、これらの軌道内の臨界状態から反実的なロールアウトを生成することにより、エージェントの選択した経路がオルタナティブよりも堅牢に優れていることを示す。
標準のOpenAI Gym環境における我々の実験は、提案された重要度基準が、古典的なアプローチよりも最適な行動を特定するのに効果的であることを検証し、信頼できる自律システムへの重要なステップを提供する。
関連論文リスト
- Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。