論文の概要: Quality Diversity Imitation Learning
- arxiv url: http://arxiv.org/abs/2410.06151v1
- Date: Tue, 08 Oct 2024 15:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:36:01.460280
- Title: Quality Diversity Imitation Learning
- Title(参考訳): 品質の多様性を模倣する学習
- Authors: Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Ivor Tsang,
- Abstract要約: 品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
- 参考スコア(独自算出の注目度): 9.627530753815968
- License:
- Abstract: Imitation learning (IL) has shown great potential in various applications, such as robot control. However, traditional IL methods are usually designed to learn only one specific type of behavior since demonstrations typically correspond to a single expert. In this work, we introduce the first generic framework for Quality Diversity Imitation Learning (QD-IL), which enables the agent to learn a broad range of skills from limited demonstrations. Our framework integrates the principles of quality diversity with adversarial imitation learning (AIL) methods, and can potentially improve any inverse reinforcement learning (IRL) method. Empirically, our framework significantly improves the QD performance of GAIL and VAIL on the challenging continuous control tasks derived from Mujoco environments. Moreover, our method even achieves 2x expert performance in the most challenging Humanoid environment.
- Abstract(参考訳): 模倣学習(IL)は,ロボット制御など,様々な応用において大きな可能性を秘めている。
しかしながら、従来のILメソッドは通常、1つの特定のタイプの振る舞いのみを学ぶように設計されている。
本研究では,QD-IL(Quality Diversity Imitation Learning)の最初の汎用フレームワークを紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
実験により,本フレームワークは,Mujoco環境からの連続制御タスクにおいてGAILとVAILのQD性能を著しく向上させる。
さらに,最も難易度の高いヒューマノイド環境では,2倍の性能を実現する方法も提案した。
関連論文リスト
- Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文 参考訳(メタデータ) (2024-07-05T20:25:39Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL) [1.0057319866872687]
本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
論文 参考訳(メタデータ) (2024-03-02T01:40:37Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。