論文の概要: Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch
- arxiv url: http://arxiv.org/abs/2007.01174v4
- Date: Tue, 30 Nov 2021 16:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:25:46.850745
- Title: Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch
- Title(参考訳): 遷移ダイナミクスミスマッチによるロバスト逆強化学習
- Authors: Luca Viano, Yu-Ting Huang, Parameswaran Kamalaruban, Adrian Weller,
Volkan Cevher
- Abstract要約: 本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 60.23815709215807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the inverse reinforcement learning (IRL) problem under a transition
dynamics mismatch between the expert and the learner. Specifically, we consider
the Maximum Causal Entropy (MCE) IRL learner model and provide a tight upper
bound on the learner's performance degradation based on the $\ell_1$-distance
between the transition dynamics of the expert and the learner. Leveraging
insights from the Robust RL literature, we propose a robust MCE IRL algorithm,
which is a principled approach to help with this mismatch. Finally, we
empirically demonstrate the stable performance of our algorithm compared to the
standard MCE IRL algorithm under transition dynamics mismatches in both finite
and continuous MDP problems.
- Abstract(参考訳): 専門家と学習者の遷移ダイナミクスミスマッチの下で, 逆強化学習(irl)問題について検討した。
具体的には、最大因果エントロピー(MCE)IRL学習者モデルについて検討し、エキスパートと学習者の遷移ダイナミクス間の$\ell_1$-distanceに基づいて学習者の性能劣化に厳密な上限を与える。
本稿では,ロバスト RL の文献から得られた知見を活用し,このミスマッチを支援するための基本的手法である堅牢な MCE IRL アルゴリズムを提案する。
最後に, 有限および連続 MDP 問題の遷移力学ミスマッチ下での標準 MCE IRL アルゴリズムと比較して, アルゴリズムの安定性能を実証的に実証した。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Distributionally Robust Off-Dynamics Reinforcement Learning: Provable
Efficiency with Linear Function Approximation [8.234072589087095]
我々は、オフダイナミックス強化学習(RL)を研究し、そこでポリシーはソースドメイン上でトレーニングされ、異なるターゲットドメインにデプロイされる。
オフダイナミックス RL の関数近似を用いたオンライン DRMDP に関する最初の研究を行った。
DR-LSVI-UCBは,関数近似を用いたオフダイナミックスのための高速オンラインDRMDPアルゴリズムである。
論文 参考訳(メタデータ) (2024-02-23T16:01:44Z) - Three-Way Trade-Off in Multi-Objective Learning: Optimization,
Generalization and Conflict-Avoidance [47.42067405054353]
MOL(Multi-objective Learning)は、機械学習の新興問題においてしばしば発生する問題である。
MOLにおける重要な課題の1つは、反復最適化プロセスにおける異なる目的間の潜在的な衝突である。
近年,MGDAやその変種など,MOLの動的重み付けアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2023-05-31T17:31:56Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。
我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。
提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文 参考訳(メタデータ) (2022-06-07T14:55:58Z) - Meta Continual Learning via Dynamic Programming [1.0965065178451106]
我々はメタ連続学習(MCL)のための新しい理論的アプローチを開発する。
動的プログラミングを用いて学習力学を数学的にモデル化し, MCL問題に対する最適条件を確立する。
提案手法は,従来の最先端手法に比べて精度が向上し,精度が向上することを示す。
論文 参考訳(メタデータ) (2020-08-05T16:36:16Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。