論文の概要: On the Effective Horizon of Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.06541v2
- Date: Wed, 16 Oct 2024 16:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:34.219691
- Title: On the Effective Horizon of Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習の有効性について
- Authors: Yiqing Xu, Finale Doshi-Velez, David Hsu,
- Abstract要約: 逆強化学習(IRL)アルゴリズムは、しばしば所定の時間軸上の強化学習や計画に依存する。
時間地平線は、報酬推定の精度とIRLアルゴリズムの計算効率の両方を決定する上で重要な役割を果たす。
- 参考スコア(独自算出の注目度): 38.7571680927719
- License:
- Abstract: Inverse reinforcement learning (IRL) algorithms often rely on (forward) reinforcement learning or planning over a given time horizon to compute an approximately optimal policy for a hypothesized reward function and then match this policy with expert demonstrations. The time horizon plays a critical role in determining both the accuracy of reward estimates and the computational efficiency of IRL algorithms. Interestingly, an \emph{effective time horizon} shorter than the ground-truth value often produces better results faster. This work formally analyzes this phenomenon and provides an explanation: the time horizon controls the complexity of an induced policy class and mitigates overfitting with limited data. This analysis serves as a guide for the principled choice of the effective horizon for IRL. It also prompts us to re-examine the classic IRL formulation: it is more natural to learn jointly the reward and the effective horizon rather than the reward alone with a given horizon. To validate our findings, we implement a cross-validation extension and the experimental results confirm the theoretical analysis.
- Abstract(参考訳): 逆強化学習(IRL)アルゴリズムは、仮説化された報酬関数に対してほぼ最適なポリシーを計算し、このポリシーを専門家のデモンストレーションと一致させるために、与えられた時間的地平線上での強化学習や計画に依存することが多い。
時間地平線は、報酬推定の精度とIRLアルゴリズムの計算効率の両方を決定する上で重要な役割を果たす。
興味深いことに、接地トラス値よりも短い 'emph{ Effective time horizon} は、しばしばより良い結果をもたらす。
この研究は、この現象を公式に分析し、説明を提供する: 時間地平線は、誘導されたポリシークラスの複雑さを制御し、限られたデータで過度に適合することを緩和する。
この分析は、IRLの有効地平線の原理的選択のガイドとなる。
これはまた、古典的なIRLの定式化を再検討することを促す。与えられた地平線でのみ報酬を学ぶよりも、報酬と効果的な地平線を共同で学ぶ方が自然である。
本研究の検証のために,クロスバリデーション拡張を実装し,実験結果から理論的解析を確認した。
関連論文リスト
- Learning Uncertainty-Aware Temporally-Extended Actions [22.901453123868674]
我々は不確かさを意識した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
我々はGridworldとAtari 2600環境における実験を通してUTEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-08T06:32:06Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Preference-based Reinforcement Learning with Finite-Time Guarantees [76.88632321436472]
嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
論文 参考訳(メタデータ) (2020-06-16T03:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。