論文の概要: IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic
- arxiv url: http://arxiv.org/abs/2502.19859v1
- Date: Thu, 27 Feb 2025 08:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:40.695392
- Title: IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic
- Title(参考訳): IL-SOAR : ソフト・オプティミスティック・アクターcRiticを用いた模倣学習
- Authors: Stefano Viel, Luca Viano, Volkan Cevher,
- Abstract要約: 本稿では、模倣学習のためのSOARフレームワークを紹介する。
これは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。
いくつかの MuJoCo 環境では,f-IRL,ML-IRL,CSIL などのソフトアクタ批判に基づく模倣学習アルゴリズムの性能を一貫して向上することが示されている。
- 参考スコア(独自算出の注目度): 52.44637913176449
- License:
- Abstract: This paper introduces the SOAR framework for imitation learning. SOAR is an algorithmic template that learns a policy from expert demonstrations with a primal dual style algorithm that alternates cost and policy updates. Within the policy updates, the SOAR framework uses an actor critic method with multiple critics to estimate the critic uncertainty and build an optimistic critic fundamental to drive exploration. When instantiated in the tabular setting, we get a provable algorithm with guarantees that matches the best known results in $\epsilon$. Practically, the SOAR template is shown to boost consistently the performance of imitation learning algorithms based on Soft Actor Critic such as f-IRL, ML-IRL and CSIL in several MuJoCo environments. Overall, thanks to SOAR, the required number of episodes to achieve the same performance is reduced by half.
- Abstract(参考訳): 本稿では、模倣学習のためのSOARフレームワークを紹介する。
SOARは、コストとポリシーの更新を交互に行うプリミティブデュアルスタイルのアルゴリズムで、専門家によるデモンストレーションからポリシーを学ぶアルゴリズムテンプレートである。
ポリシー更新の中では、SOARフレームワークはアクター批判手法と複数の批判者を用いて、批判の不確実性を見積もり、探索を促進するための楽観的な批判基盤を構築する。
表の設定でインスタンス化されると、最もよく知られた結果が$\epsilon$に一致する保証付き証明可能なアルゴリズムが得られます。
実際、SOARテンプレートは、いくつかのMuJoCo環境において、f-IRL、ML-IRL、CSILといったソフトアクター批判に基づく模倣学習アルゴリズムのパフォーマンスを一貫して向上させる。
全体として、SOARのおかげで、同じパフォーマンスを達成するために必要なエピソードの数が半分減ります。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - ARC -- Actor Residual Critic for Adversarial Imitation Learning [3.4806267677524896]
ARC支援によるAILは、シミュレーションされた連続制御および実際のロボット操作タスクにおいて、標準のAILよりも優れていることを示す。
ARCアルゴリズムは実装が簡単で、ACアルゴリズムで既存のAIL実装に組み込むことができる。
論文 参考訳(メタデータ) (2022-06-05T04:49:58Z) - Provable Benefits of Actor-Critic Methods for Offline Reinforcement
Learning [85.50033812217254]
アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはそれほどよく理解されていない。
ペシミズムの原理を自然に取り入れた新しいオフラインアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-19T17:27:29Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。