論文の概要: Imitation Learning by State-Only Distribution Matching
- arxiv url: http://arxiv.org/abs/2202.04332v1
- Date: Wed, 9 Feb 2022 08:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:39:27.643004
- Title: Imitation Learning by State-Only Distribution Matching
- Title(参考訳): 状態のみ分布マッチングによる模倣学習
- Authors: Damian Boborzi, Christoph-Nikolas Straehle, Jens S. Buchner, Lars
Mikelsons
- Abstract要約: 観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
- 参考スコア(独自算出の注目度): 2.580765958706854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation Learning from observation describes policy learning in a similar
way to human learning. An agent's policy is trained by observing an expert
performing a task. While many state-only imitation learning approaches are
based on adversarial imitation learning, one main drawback is that adversarial
training is often unstable and lacks a reliable convergence estimator. If the
true environment reward is unknown and cannot be used to select the
best-performing model, this can result in bad real-world policy performance. We
propose a non-adversarial learning-from-observations approach, together with an
interpretable convergence and performance metric.
Our training objective minimizes the Kulback-Leibler divergence (KLD) between
the policy and expert state transition trajectories which can be optimized in a
non-adversarial fashion. Such methods demonstrate improved robustness when
learned density models guide the optimization. We further improve the sample
efficiency by rewriting the KLD minimization as the Soft Actor Critic objective
based on a modified reward using additional density models that estimate the
environment's forward and backward dynamics. Finally, we evaluate the
effectiveness of our approach on well-known continuous control environments and
show state-of-the-art performance while having a reliable performance estimator
compared to several recent learning-from-observation methods.
- Abstract(参考訳): 観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
エージェントの方針は、タスクを実行する専門家を観察して訓練される。
多くの状態限定の模倣学習アプローチは、敵対的模倣学習に基づいているが、主な欠点は、敵対的訓練はしばしば不安定であり、信頼できる収束推定器が欠けていることである。
真の環境報酬が不明で、最高のパフォーマンスモデルの選択に使用できない場合、実際のポリシーパフォーマンスが悪くなる可能性がある。
本稿では,非会話的観察学習手法と,解釈可能な収束と性能指標を提案する。
我々の訓練目的は、非敵対的な方法で最適化可能な政策と専門家状態遷移軌跡間のKLD(Kulback-Leibler divergence)を最小化する。
このような手法は、学習された密度モデルが最適化を導くとき、ロバスト性の向上を示す。
さらに,環境の前方および後方のダイナミクスを推定する付加密度モデルを用いて,修正報酬に基づいて,kld最小化をソフトアクタ批判対象として書き換えることで,サンプル効率をさらに向上させる。
最後に,本手法がよく知られた連続制御環境において有効であることを示すとともに,近年の学習・観測手法と比較して信頼性の高い性能評価を行う。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Model predictive control-based value estimation for efficient reinforcement learning [6.8237783245324035]
データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:14Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。
我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文 参考訳(メタデータ) (2022-05-19T00:05:03Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。