論文の概要: Bridging the Imitation Gap by Adaptive Insubordination
- arxiv url: http://arxiv.org/abs/2007.12173v3
- Date: Fri, 3 Dec 2021 18:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 11:38:02.492606
- Title: Bridging the Imitation Gap by Adaptive Insubordination
- Title(参考訳): Adaptive Insubordination による模倣ギャップのブリッジ化
- Authors: Luca Weihs, Unnat Jain, Iou-Jen Liu, Jordi Salvador, Svetlana
Lazebnik, Aniruddha Kembhavi, Alexander Schwing
- Abstract要約: 教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
- 参考スコア(独自算出の注目度): 88.35564081175642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, imitation learning is preferred over pure reinforcement learning
whenever it is possible to design a teaching agent to provide expert
supervision. However, we show that when the teaching agent makes decisions with
access to privileged information that is unavailable to the student, this
information is marginalized during imitation learning, resulting in an
"imitation gap" and, potentially, poor results. Prior work bridges this gap via
a progression from imitation learning to reinforcement learning. While often
successful, gradual progression fails for tasks that require frequent switches
between exploration and memorization. To better address these tasks and
alleviate the imitation gap we propose 'Adaptive Insubordination' (ADVISOR).
ADVISOR dynamically weights imitation and reward-based reinforcement learning
losses during training, enabling on-the-fly switching between imitation and
exploration. On a suite of challenging tasks set within gridworlds, multi-agent
particle environments, and high-fidelity 3D simulators, we show that on-the-fly
switching with ADVISOR outperforms pure imitation, pure reinforcement learning,
as well as their sequential and parallel combinations.
- Abstract(参考訳): 実際には、専門家の監督を提供するための指導エージェントを設計できる場合には、純粋な強化学習よりも模倣学習が好ましい。
しかし,学生が利用できない特権情報にアクセスして意思決定を行うと,この情報は模倣学習中に限界化され,結果として「模倣ギャップ」と潜在的に貧弱な結果が得られることを示した。
先行研究は、模倣学習から強化学習への進歩を通じて、このギャップを橋渡ししている。
しばしば成功するが、探索と記憶の切り替えが頻繁に必要となるタスクでは徐々に進行しない。
これらの課題にもっとうまく対処し、模倣のギャップを軽減するために、我々は'Adaptive Insubordination' (ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
グリッドワールドやマルチエージェント粒子環境,高忠実度3Dシミュレータなどにおいて,ADVISORによるオンザフライスイッチングは,純粋な模倣,純粋な強化学習,シーケンシャルおよび並列な組み合わせよりも優れていることを示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Latent Policies for Adversarial Imitation Learning [21.105328282702885]
本稿では,専門家によるデモンストレーションからロボットの移動と操作の学習について考察する。
GAIL(Generative Adversarial mimicion Learning)は、エージェント遷移と専門家を区別する判別器を訓練し、次に、識別器出力によって定義された報酬を使用してエージェントのポリシー生成を最適化する。
この研究の重要な洞察は、適切な潜在タスク空間で模倣学習を行うことで、高次元問題に挑戦してもトレーニングプロセスを安定させるということである。
論文 参考訳(メタデータ) (2022-06-22T18:06:26Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。