論文の概要: How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement
- arxiv url: http://arxiv.org/abs/2303.02073v1
- Date: Fri, 3 Mar 2023 16:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 14:12:25.870757
- Title: How To Guide Your Learner: Imitation Learning with Active Adaptive
Expert Involvement
- Title(参考訳): 学習者の指導方法: アクティブ・アダプティブ・エキスパートによる模倣学習
- Authors: Xu-Hui Liu, Feng Xu, Xinyu Zhang, Tianyuan Liu, Shengyi Jiang, Ruifeng
Chen, Zongzhang Zhang, Yang Yu
- Abstract要約: 本稿では,教師と学生のインタラクションモデルに基づく,新しいアクティブな模倣学習フレームワークを提案する。
本稿では,AdapMenによるエラー境界の改善と,軽度条件下での複合的エラーの回避について述べる。
- 参考スコア(独自算出の注目度): 20.91491585498749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning aims to mimic the behavior of experts without explicit
reward signals. Passive imitation learning methods which use static expert
datasets typically suffer from compounding error, low sample efficiency, and
high hyper-parameter sensitivity. In contrast, active imitation learning
methods solicit expert interventions to address the limitations. However,
recent active imitation learning methods are designed based on human intuitions
or empirical experience without theoretical guarantee. In this paper, we
propose a novel active imitation learning framework based on a teacher-student
interaction model, in which the teacher's goal is to identify the best teaching
behavior and actively affect the student's learning process. By solving the
optimization objective of this framework, we propose a practical
implementation, naming it AdapMen. Theoretical analysis shows that AdapMen can
improve the error bound and avoid compounding error under mild conditions.
Experiments on the MetaDrive benchmark and Atari 2600 games validate our
theoretical analysis and show that our method achieves near-expert performance
with much less expert involvement and total sampling steps than previous
methods. The code is available at https://github.com/liuxhym/AdapMen.
- Abstract(参考訳): 模倣学習は、明確な報酬信号なしで専門家の行動を模倣することを目的としている。
静的なエキスパートデータセットを使用する受動的模倣学習手法は、通常、複合化エラー、サンプル効率の低下、ハイパーパラメータ感度の上昇に苦しむ。
対照的に、アクティブな模倣学習手法は、制限に対処するために専門家の介入を要求する。
しかし、近年の能動模倣学習法は、理論的保証なしに人間の直感や経験に基づいて設計されている。
本稿では,教師と学生の交流モデルに基づく,教師の指導行動の最高の特定と,生徒の学習プロセスへの積極的な影響を目標とする,新しい実践的模倣学習フレームワークを提案する。
本フレームワークの最適化目的を解決し,adapmenと命名する実践的実装を提案する。
理論的解析により、アダプメンは誤差境界を改善し、穏やかな条件下での複合誤差を避けることができることが示された。
MetaDriveベンチマークとAtari 2600ゲームを用いた実験により,本手法は従来の手法に比べて,専門家の関与やサンプリング手順の総量が少なく,ほぼ専門的な性能を達成できた。
コードはhttps://github.com/liuxhym/AdapMen.comで入手できる。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - RLTutor: Reinforcement Learning Based Adaptive Tutoring System by
Modeling Virtual Student with Fewer Interactions [10.34673089426247]
本稿では,学生の仮想モデルを構築し,指導戦略を最適化する枠組みを提案する。
この結果は,eラーニングシステムにおける理論的指導最適化と実践的応用のバッファとして機能する。
論文 参考訳(メタデータ) (2021-07-31T15:42:03Z) - Robust Imitation Learning from Noisy Demonstrations [81.67837507534001]
我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T10:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。