論文の概要: RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.20089v1
- Date: Thu, 27 Feb 2025 13:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:16.704822
- Title: RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning
- Title(参考訳): Rize: 分散強化学習による正規化模倣学習
- Authors: Adib Karimi, Mohammad Mehdi Ebadzadeh,
- Abstract要約: 固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。
最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。
提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
- 参考スコア(独自算出の注目度): 0.3222802562733786
- License:
- Abstract: We introduce a novel Inverse Reinforcement Learning (IRL) approach that overcomes limitations of fixed reward assignments and constrained flexibility in implicit reward regularization. By extending the Maximum Entropy IRL framework with a squared temporal-difference (TD) regularizer and adaptive targets, dynamically adjusted during training, our method indirectly optimizes a reward function while incorporating reinforcement learning principles. Furthermore, we integrate distributional RL to capture richer return information. Our approach achieves state-of-the-art performance on challenging MuJoCo tasks, demonstrating expert-level results on the Humanoid task with only 3 demonstrations. Extensive experiments and ablation studies validate the effectiveness of our method, providing insights into adaptive targets and reward dynamics in imitation learning.
- Abstract(参考訳): Inverse Reinforcement Learning (IRL) アプローチを導入し、固定報酬の割り当ての制限と暗黙の報酬規則化における制約された柔軟性を克服する。
最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整することにより、強化学習原則を取り入れつつ報酬関数を間接的に最適化する。
さらに、よりリッチな戻り情報を取得するために分布RLを統合する。
提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
本手法の有効性を検証し,適応的目標に対する洞察と模倣学習における報酬ダイナミクスについて検討した。
関連論文リスト
- Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。
提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。
DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文 参考訳(メタデータ) (2024-10-17T23:13:32Z) - Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。
この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文 参考訳(メタデータ) (2021-10-21T19:23:15Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。