論文の概要: Adversarial Soft Advantage Fitting: Imitation Learning without Policy
Optimization
- arxiv url: http://arxiv.org/abs/2006.13258v6
- Date: Fri, 16 Apr 2021 10:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:33:38.495203
- Title: Adversarial Soft Advantage Fitting: Imitation Learning without Policy
Optimization
- Title(参考訳): 敵対的ソフトアドバンテージフィッティング:政策最適化を伴わない模倣学習
- Authors: Paul Barde, Julien Roy, Wonseok Jeon, Joelle Pineau, Christopher Pal,
Derek Nowrouzezahrai
- Abstract要約: 対立的模倣学習(Adversarial Imitation Learning)は、識別器を学習する -- 生成されたものと専門家のデモンストレーションを区別する -- と、この識別器を騙すことができる軌跡を生成するジェネレータのポリシーとを交互に交互に扱う。
本稿では,新たな差別化要因の定式化を活用することで,政策最適化ステップの負担を軽減することを提案する。
- 参考スコア(独自算出の注目度): 48.674944885529165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial Imitation Learning alternates between learning a discriminator --
which tells apart expert's demonstrations from generated ones -- and a
generator's policy to produce trajectories that can fool this discriminator.
This alternated optimization is known to be delicate in practice since it
compounds unstable adversarial training with brittle and sample-inefficient
reinforcement learning. We propose to remove the burden of the policy
optimization steps by leveraging a novel discriminator formulation.
Specifically, our discriminator is explicitly conditioned on two policies: the
one from the previous generator's iteration and a learnable policy. When
optimized, this discriminator directly learns the optimal generator's policy.
Consequently, our discriminator's update solves the generator's optimization
problem for free: learning a policy that imitates the expert does not require
an additional optimization loop. This formulation effectively cuts by half the
implementation and computational burden of Adversarial Imitation Learning
algorithms by removing the Reinforcement Learning phase altogether. We show on
a variety of tasks that our simpler approach is competitive to prevalent
Imitation Learning methods.
- Abstract(参考訳): 悪意のある模倣学習は、生成したものから専門家のデモンストレーションを区別する識別器の学習と、この識別器を騙すことができる軌道を生成する生成器の方針とを交互に行う。
この交互最適化は、不安定な対向訓練と脆性およびサンプル非効率強化学習を複合するので、実際は繊細であることが知られている。
本稿では,新しい判別器の定式化を活用し,政策最適化ステップの負担を軽減することを提案する。
具体的には、前回のジェネレータの繰り返しと学習可能なポリシーの2つのポリシーを明示的に規定する。
最適化されると、この判別器は最適な発電機のポリシーを直接学習する。
その結果、判別器のアップデートはジェネレータの最適化問題を無償で解決する:専門家を模倣するポリシーを学ぶには、追加の最適化ループを必要としない。
この定式化は、強化学習フェーズを完全に取り除き、逆模倣学習アルゴリズムの実装と計算負荷の半減を効果的に行う。
より単純なアプローチは、一般的なImitation Learning手法と競合する、さまざまなタスクを示す。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement [1.1510009152620668]
建設的ニューラル最適化の現在の手法は、通常、専門家ソリューションからの行動クローニングや強化学習からのポリシー勾配手法を用いてポリシーを訓練する。
各エポックにおける現在のモデルを用いて、ランダムなインスタンスに対して複数の解をサンプリングし、その後、教師付き模倣学習のための専門家の軌跡として最適な解を選択することにより、この2つを橋渡しする。
我々は,旅行セールスマン問題とキャパシタントカールーティング問題に対する我々のアプローチを評価し,本手法で訓練したモデルは,専門家データで訓練したモデルと同等の性能と一般化を実現する。
論文 参考訳(メタデータ) (2024-03-22T13:09:10Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。