論文の概要: Distributional Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03013v1
- Date: Fri, 03 Oct 2025 13:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.410128
- Title: Distributional Inverse Reinforcement Learning
- Title(参考訳): 分散逆強化学習
- Authors: Feiyang Wu, Ye Zhao, Anqi Wu,
- Abstract要約: オフライン逆強化学習(IRL)のための分散フレームワークを提案する。
本手法は,特に報酬分布の学習において,専門家の行動の構造を捉える。
この定式化は行動分析とリスク認識模倣学習に適している。
- 参考スコア(独自算出の注目度): 12.590471116307485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a distributional framework for offline Inverse Reinforcement Learning (IRL) that jointly models uncertainty over reward functions and full distributions of returns. Unlike conventional IRL approaches that recover a deterministic reward estimate or match only expected returns, our method captures richer structure in expert behavior, particularly in learning the reward distribution, by minimizing first-order stochastic dominance (FSD) violations and thus integrating distortion risk measures (DRMs) into policy learning, enabling the recovery of both reward distributions and distribution-aware policies. This formulation is well-suited for behavior analysis and risk-aware imitation learning. Empirical results on synthetic benchmarks, real-world neurobehavioral data, and MuJoCo control tasks demonstrate that our method recovers expressive reward representations and achieves state-of-the-art imitation performance.
- Abstract(参考訳): 本稿では,報酬関数に対する不確実性と戻り値の完全な分布を共同でモデル化するオフライン逆強化学習(IRL)のための分散フレームワークを提案する。
決定論的報酬推定を回復する従来のIRL手法とは異なり、本手法は、特に報奨分布の学習において、一階確率支配(FSD)違反を最小限に抑え、歪みリスク対策(DRM)を政策学習に統合することにより、報奨分布と分布対応ポリシーの両方の回復を可能にする。
この定式化は行動分析とリスク認識模倣学習に適している。
人工ベンチマーク,実世界の神経行動データ,MuJoCo制御タスクの実証結果から,提案手法が表現的報酬表現を回復し,最先端の模倣性能を実現することを示す。
関連論文リスト
- Beyond Imitation: Recovering Dense Rewards from Demonstrations [64.05543657441218]
教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-10-02T18:58:26Z) - Likelihood Reward Redistribution [0.0]
本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。
ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
論文 参考訳(メタデータ) (2025-03-20T20:50:49Z) - RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬構造の剛性と暗黙的な報酬規則化の柔軟性を緩和する新しい逆強化学習(IRL)法を提案する。
本手法は,最大エントロピーIRLフレームワーク上に構築され,学習中に動的に進化する適応目標を持つ2乗時間差正規化器を備える。
論文 参考訳(メタデータ) (2025-02-27T13:47:29Z) - Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Diffusion Policies for Risk-Averse Behavior Modeling in Offline Reinforcement Learning [26.34178581703107]
オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
論文 参考訳(メタデータ) (2024-03-26T12:28:04Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。