論文の概要: Quality Diversity Imitation Learning
- arxiv url: http://arxiv.org/abs/2410.06151v1
- Date: Tue, 8 Oct 2024 15:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:00:50.250236
- Title: Quality Diversity Imitation Learning
- Title(参考訳): 品質の多様性を模倣する学習
- Authors: Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Ivor Tsang,
- Abstract要約: 品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
- 参考スコア(独自算出の注目度): 9.627530753815968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) has shown great potential in various applications, such as robot control. However, traditional IL methods are usually designed to learn only one specific type of behavior since demonstrations typically correspond to a single expert. In this work, we introduce the first generic framework for Quality Diversity Imitation Learning (QD-IL), which enables the agent to learn a broad range of skills from limited demonstrations. Our framework integrates the principles of quality diversity with adversarial imitation learning (AIL) methods, and can potentially improve any inverse reinforcement learning (IRL) method. Empirically, our framework significantly improves the QD performance of GAIL and VAIL on the challenging continuous control tasks derived from Mujoco environments. Moreover, our method even achieves 2x expert performance in the most challenging Humanoid environment.
- Abstract(参考訳): 模倣学習(IL)は,ロボット制御など,様々な応用において大きな可能性を秘めている。
しかしながら、従来のILメソッドは通常、1つの特定のタイプの振る舞いのみを学ぶように設計されている。
本研究では,QD-IL(Quality Diversity Imitation Learning)の最初の汎用フレームワークを紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
実験により,本フレームワークは,Mujoco環境からの連続制御タスクにおいてGAILとVAILのQD性能を著しく向上させる。
さらに,最も難易度の高いヒューマノイド環境では,2倍の性能を実現する方法も提案した。
関連論文リスト
- Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration [37.836675202590406]
本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。
Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上
評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
論文 参考訳(メタデータ) (2024-11-11T13:11:18Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文 参考訳(メタデータ) (2024-07-05T20:25:39Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL) [1.0057319866872687]
本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
論文 参考訳(メタデータ) (2024-03-02T01:40:37Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。