論文の概要: ReIL: A Framework for Reinforced Intervention-based Imitation Learning
- arxiv url: http://arxiv.org/abs/2203.15390v1
- Date: Tue, 29 Mar 2022 09:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 01:42:12.189641
- Title: ReIL: A Framework for Reinforced Intervention-based Imitation Learning
- Title(参考訳): ReIL: インターベンションに基づく模倣学習のためのフレームワーク
- Authors: Rom Parnichkun, Matthew N. Dailey, Atsushi Yamashita
- Abstract要約: Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
- 参考スコア(独自算出の注目度): 3.0846824529023387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to traditional imitation learning methods such as DAgger and DART,
intervention-based imitation offers a more convenient and sample efficient data
collection process to users. In this paper, we introduce Reinforced
Intervention-based Learning (ReIL), a framework consisting of a general
intervention-based learning algorithm and a multi-task imitation learning model
aimed at enabling non-expert users to train agents in real environments with
little supervision or fine tuning. ReIL achieves this with an algorithm that
combines the advantages of imitation learning and reinforcement learning and a
model capable of concurrently processing demonstrations, past experience, and
current observations. Experimental results from real world mobile robot
navigation challenges indicate that ReIL learns rapidly from sparse supervisor
corrections without suffering deterioration in performance that is
characteristic of supervised learning-based methods such as HG-Dagger and IWR.
The results also demonstrate that in contrast to other intervention-based
methods such as IARL and EGPO, ReIL can utilize an arbitrary reward function
for training without any additional heuristics.
- Abstract(参考訳): DAggerやDARTのような従来の模倣学習手法と比較して、介入に基づく模倣はより便利でサンプルの効率的なデータ収集プロセスを提供する。
本稿では,Reinforced Intervention-based Learning(ReIL)について紹介する。Reinforced Intervention-based Learning(ReIL)は,一般の介入に基づく学習アルゴリズムと,非エキスパートユーザによる実環境におけるエージェントの訓練を,監督や微調整がほとんどないマルチタスク模倣学習モデルである。
ReILはこれを、模倣学習と強化学習の利点と、実証、過去の経験、現在の観察を同時に処理できるモデルを組み合わせたアルゴリズムで実現している。
実世界の移動ロボットナビゲーションの課題から,HG-Dagger や IWR などの教師あり学習法の特徴である性能の劣化に悩まされることなく,ReIL はスパーススーパーバイザ補正から急速に学習することを示す。
また、IARLやEGPOのような介入に基づく他の手法とは対照的に、ReILは任意の報酬関数を追加のヒューリスティクスを使わずにトレーニングに利用できることを示した。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Assessor-Guided Learning for Continual Environments [17.181933166255448]
本稿では,継続的学習のための評価者指導型学習戦略を提案する。
評価者は、学習過程の方向とペースを制御することにより、基礎学習者の学習過程を案内する。
評価器はメタ学習方式でメタオブジェクトを用いて訓練され、ベース学習者の学習プロセスが促進される。
論文 参考訳(メタデータ) (2023-03-21T06:45:14Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。