論文の概要: Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates
- arxiv url: http://arxiv.org/abs/2605.11020v1
- Date: Sun, 10 May 2026 15:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.307078
- Title: Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates
- Title(参考訳): 信頼領域逆強化学習 : 地域政策更新による2段階の明示的上昇
- Authors: Anish Diwan, Davide Tateo, Christopher E. Mower, Haitham Bou-Ammar, Jan Peters, Oleg Arenz,
- Abstract要約: 逆強化学習(IRL)は通常、専門家軌道の分布に一致するエントロピーの最大化として定式化される。
本研究では,各イテレーションでRL問題を解くことなく,報酬関数とポリシーの単調な改善を可能にすることにより,ギャップを埋める。
提案アルゴリズムであるTrust Region Inverse Reinforcement Learning (TRIRL) は,複数の課題にまたがる最先端の模倣学習手法を,クラスタリング間平均で2.4倍の性能で上回る。
- 参考スコア(独自算出の注目度): 25.957276792858085
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inverse reinforcement learning (IRL) is typically formulated as maximizing entropy subject to matching the distribution of expert trajectories. Classical (dual-ascent) IRL guarantees monotonic performance improvement but requires fully solving an RL problem each iteration to compute dual gradients. More recent adversarial methods avoid this cost at the expense of stability and monotonic dual improvement, by directly optimizing the primal problem and using a discriminator to provide rewards. In this work, we bridge the gap between these approaches by enabling monotonic improvement of the reward function and policy without having to fully solve an RL problem at every iteration. Our key theoretical insight is that a trust-region-optimal policy for a reward function update can be globally optimal for a smaller update in the same direction. This smaller update allows us to explicitly optimize the dual objective while only relying on a local search around the current policy. In doing so, our approach avoids the training instabilities of adversarial methods, offers monotonic performance improvement, and learns a reward function in the traditional sense of IRL--one that can be globally optimized to match expert demonstrations. Our proposed algorithm, Trust Region Inverse Reinforcement Learning (TRIRL), outperforms state-of-the-art imitation learning methods across multiple challenging tasks by a factor of 2.4x in terms of aggregate inter-quartile mean, while recovering reward functions that generalize to system dynamics shifts.
- Abstract(参考訳): 逆強化学習(IRL)は通常、専門家軌道の分布に一致するエントロピーの最大化として定式化される。
古典的な(デュアルアセットな)IRLは単調性能の向上を保証するが、二重勾配を計算するには各イテレーションでRL問題を解く必要がある。
より最近の敵対的手法は、主問題を直接最適化し、識別器を使用して報酬を提供することにより、安定性と単調な二重改善を犠牲にして、このコストを回避している。
本研究では,各イテレーションでRL問題を解くことなく,報酬関数とポリシーの単調な改善を可能にすることによって,これらのアプローチのギャップを埋める。
我々の重要な理論的洞察は、報酬関数更新のための信頼領域最適化ポリシーが、同じ方向に小さな更新を行うのに、グローバルに最適であるということである。
この小さなアップデートにより、現在のポリシーに関するローカル検索にのみ依存しながら、二重目的を明示的に最適化することができます。
そこで本手法は, 従来のIRLの知識を活かした報酬関数を学習し, 提案手法のトレーニングの不安定さを回避し, 単調な性能向上を実現している。
提案アルゴリズムであるTrust Region Inverse Reinforcement Learning (TRIRL) は、システムダイナミクスのシフトを一般化する報酬関数を回復しつつ、複数の課題にまたがる最先端の模倣学習手法より2.4倍の精度で性能を向上する。
関連論文リスト
- Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm [24.126318783226598]
逆強化学習(IRL)は、専門家によるデモンストレーションを説明するための報酬関数を学習する。
現代のIRL法は報酬と政策最適化を交互に行う逆数式(minimax)を用いることが多い。
最近の非敵対的IRLアプローチは、エネルギーベースの定式化を通じて報酬と政策を共同学習することで安定性を向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:36:13Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。