論文の概要: Rethinking Adversarial Inverse Reinforcement Learning: Policy Imitation, Transferable Reward Recovery and Algebraic Equilibrium Proof
- arxiv url: http://arxiv.org/abs/2403.14593v3
- Date: Tue, 14 May 2024 12:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:52:04.576717
- Title: Rethinking Adversarial Inverse Reinforcement Learning: Policy Imitation, Transferable Reward Recovery and Algebraic Equilibrium Proof
- Title(参考訳): 逆逆強化学習の再考 : 政策模倣, 転帰回復, 代数的平衡証明
- Authors: Yangchun Zhang, Qiang Liu, Weiming Li, Yirui Zhou,
- Abstract要約: 副次逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判に直面している。
本研究では,ソフトアクター・クリティック(SAC)による組込みアルゴリズムの置き換えにより,ポリシー模倣の効率が著しく向上することを示す。
SACは実際、政策模倣の大幅な改善を示すが、転送可能な報酬回復の欠点をもたらす。
- 参考スコア(独自算出の注目度): 7.000047187877612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial inverse reinforcement learning (AIRL) stands as a cornerstone approach in imitation learning, yet it faces criticisms from prior studies. In this paper, we rethink AIRL and respond to these criticisms. Criticism 1 lies in Inadequate Policy Imitation. We show that substituting the built-in algorithm with soft actor-critic (SAC) during policy updating (requires multi-iterations) significantly enhances the efficiency of policy imitation. Criticism 2 lies in Limited Performance in Transferable Reward Recovery Despite SAC Integration. While we find that SAC indeed exhibits a significant improvement in policy imitation, it introduces drawbacks to transferable reward recovery. We prove that the SAC algorithm itself is not feasible to disentangle the reward function comprehensively during the AIRL training process, and propose a hybrid framework, PPO-AIRL + SAC, for a satisfactory transfer effect. Criticism 3 lies in Unsatisfactory Proof from the Perspective of Potential Equilibrium. We reanalyze it from an algebraic theory perspective.
- Abstract(参考訳): 逆逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判に直面している。
本稿では,AIRLを再考し,これらの批判に答える。
批判 1 は不適切な政策模倣にある。
ポリシー更新(複数項目の要求)中に,ソフトアクタクリティカル(SAC)を組み込んだ組込みアルゴリズムが,ポリシー模倣の効率を著しく向上させることを示す。
批判2は、SAC統合にもかかわらず、転送可能なリワードリカバリにおける限定的なパフォーマンスにある。
SACは実際、政策模倣の大幅な改善を示すが、移行可能な報酬回復の欠点を生じさせる。
本研究では,SACアルゴリズム自体がAIRLトレーニングプロセス中に報酬関数を包括的に切り離すことが可能でないことを証明し,良好な伝達効果を示すためのハイブリッドフレームワーク PPO-AIRL + SAC を提案する。
批判3は、潜在的平衡の観点からの不満足な証明にある。
代数理論の観点から再解析する。
関連論文リスト
- Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery [1.1394969272703013]
逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。
本稿では,AIRLの再検討を行う。
その結果,AIRLは特定の条件に関わらず,高い確率で効果的な転送を行うために報酬をアンタングルすることができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T06:21:32Z) - Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。
WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文 参考訳(メタデータ) (2024-01-01T01:44:58Z) - SARC: Soft Actor Retrospective Critic [14.775519703997478]
SARC(Soft Actor Retrospective Critic)は、SAC批評家の損失を別の損失項で増大させるアクター批判アルゴリズムである。
SARCはベンチマーク環境でのSACよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-06-28T18:50:18Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial
Imitation Learning [52.50288418639075]
本稿では,非政治的生成的対人模倣学習の事例について考察する。
学習した報酬関数を局所的なリプシッツ連続関数に強制することは、その手法がうまく動作するための正準非条件であることを示す。
論文 参考訳(メタデータ) (2020-06-28T20:55:31Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Band-limited Soft Actor Critic Model [15.11069042369131]
SAC(Soft Actor Critic)アルゴリズムは複雑なシミュレーション環境において顕著な性能を示す。
我々は、このアイデアをさらに一歩進めて、対象の批判的空間分解能を人工的にバンドリミットする。
線形の場合、閉形式解を導出し、バンドリミットが状態-作用値近似の低周波数成分間の相互依存性を減少させることを示す。
論文 参考訳(メタデータ) (2020-06-19T22:52:43Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。