論文の概要: Error Bounds of Imitating Policies and Environments
- arxiv url: http://arxiv.org/abs/2010.11876v1
- Date: Thu, 22 Oct 2020 17:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:25:47.067887
- Title: Error Bounds of Imitating Policies and Environments
- Title(参考訳): 政策と環境を模倣するエラー境界
- Authors: Tian Xu, Ziniu Li, Yang Yu
- Abstract要約: まず, 2つの模倣法, 行動クローニング法, 生成的敵対的模倣法により, 専門家の政策と模倣された政策の間の価値ギャップを解析する。
その結果, 生成的対向模倣は, 行動クローニングに比べて複合的エラーを低減し, サンプルの複雑さが向上することがわかった。
その結果, モデルに基づく強化学習において, 環境モデルが行動クローニングよりも生成的敵模倣によりより効果的に模倣できることが示唆された。
- 参考スコア(独自算出の注目度): 11.154257789731467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning trains a policy by mimicking expert demonstrations.
Various imitation methods were proposed and empirically evaluated, meanwhile,
their theoretical understanding needs further studies. In this paper, we
firstly analyze the value gap between the expert policy and imitated policies
by two imitation methods, behavioral cloning and generative adversarial
imitation. The results support that generative adversarial imitation can reduce
the compounding errors compared to behavioral cloning, and thus has a better
sample complexity. Noticed that by considering the environment transition model
as a dual agent, imitation learning can also be used to learn the environment
model. Therefore, based on the bounds of imitating policies, we further analyze
the performance of imitating environments. The results show that environment
models can be more effectively imitated by generative adversarial imitation
than behavioral cloning, suggesting a novel application of adversarial
imitation for model-based reinforcement learning. We hope these results could
inspire future advances in imitation learning and model-based reinforcement
learning.
- Abstract(参考訳): 模倣学習は専門家のデモンストレーションを模倣して政策を訓練する。
様々な模倣法が提案され、実証的に評価されたが、理論的な理解はさらなる研究が必要である。
本稿では,まず,行動クローニング法と生成的敵意模倣法という2つの模倣法によって,専門家政策と模倣政策の間の価値格差を分析した。
その結果, 生成的対向模倣は, 行動クローニングに比べて複合的エラーを低減し, サンプルの複雑さが向上することがわかった。
環境遷移モデルをデュアルエージェントとして考えることで、環境モデルを学ぶために模倣学習も利用できることに気付きました。
そこで本研究では,模倣ポリシーの限界に基づいて,模倣環境の性能を更に分析する。
その結果, モデルに基づく強化学習において, 環境モデルが行動クローニングよりも生成的敵模倣によりより効果的に模倣できることが示唆された。
これらの結果が、模倣学習とモデルに基づく強化学習の将来の進歩を刺激することを期待している。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Sequential Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
猿が猿を見なさい」とは、制度の根底にある仕組みを深く理解せずに「生」の模倣を指して、昔ながらの格言である。
本稿では、エピソード毎に複数の意思決定をしなければならないシーケンシャルセッティングにおける因果模倣学習の問題について検討する。
論文 参考訳(メタデータ) (2022-08-12T13:53:23Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Model-Based Imitation Learning Using Entropy Regularization of Model and
Policy [0.456877715768796]
本稿では,エントロピー規則化マルコフ決定プロセスの下で,モデルに基づくエントロピー規則化模倣学習(MB-ERIL)を提案する。
ポリシー判別器は、ロボットが生成する動作と専門家の動作とを識別し、モデル判別器は、モデルが生成する反事実状態遷移と実際の動作とを識別する。
計算機シミュレーションと実ロボット実験により,MB-ERILの競争性能が向上し,ベースライン法と比較して試料効率が著しく向上することが示された。
論文 参考訳(メタデータ) (2022-06-21T04:15:12Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。