論文の概要: Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration
- arxiv url: http://arxiv.org/abs/2411.06965v1
- Date: Mon, 11 Nov 2024 13:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:32.287878
- Title: Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration
- Title(参考訳): 多様な行動からの模倣: ワンステップアーカイブ探索によるWasserstein品質の多様性の模倣学習
- Authors: Xingrui Yu, Zhenglin Wan, David Mark Bossens, Yueming Lyu, Qing Guo, Ivor W. Tsang,
- Abstract要約: 本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。
Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上
評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
- 参考スコア(独自算出の注目度): 37.836675202590406
- License:
- Abstract: Learning diverse and high-performance behaviors from a limited set of demonstrations is a grand challenge. Traditional imitation learning methods usually fail in this task because most of them are designed to learn one specific behavior even with multiple demonstrations. Therefore, novel techniques for quality diversity imitation learning are needed to solve the above challenge. This work introduces Wasserstein Quality Diversity Imitation Learning (WQDIL), which 1) improves the stability of imitation learning in the quality diversity setting with latent adversarial training based on a Wasserstein Auto-Encoder (WAE), and 2) mitigates a behavior-overfitting issue using a measure-conditioned reward function with a single-step archive exploration bonus. Empirically, our method significantly outperforms state-of-the-art IL methods, achieving near-expert or beyond-expert QD performance on the challenging continuous control tasks derived from MuJoCo environments.
- Abstract(参考訳): 限られた一連のデモから多種多様なハイパフォーマンスな振る舞いを学ぶことは、大きな課題です。
従来の模倣学習手法は、通常、このタスクでは失敗する。
したがって、上記の課題を解決するためには、品質多様性の模倣学習のための新しい技術が必要である。
本稿では,Wasserstein Quality Diversity Imitation Learning(WQDIL)を紹介する。
1)Wasserstein Auto-Encoder(WAE)に基づく潜伏対人訓練による品質多様性設定における模倣学習の安定性の向上
2) 1段階のアーカイブ探索ボーナス付き測度条件付報酬関数を用いて,行動過剰化問題を緩和する。
提案手法は, MuJoCo環境から派生した, 課題のある連続制御タスクに対して, ほぼ専門的あるいは未熟なQD性能を達成し, 最先端のIL手法を著しく上回っている。
関連論文リスト
- Quality Diversity Imitation Learning [9.627530753815968]
品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
論文 参考訳(メタデータ) (2024-10-08T15:49:33Z) - Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文 参考訳(メタデータ) (2024-07-05T20:25:39Z) - Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics [7.600968522331612]
QDAC(Quality-Diversity Actor-Critic)は、アクターに批判的な深層強化学習アルゴリズムである。
他の品質多様性手法と比較すると、QDACは性能が著しく高く、振る舞いも多様である。
また、学習したスキルを活用して、他のベースラインよりも5つの摂動環境に適応できることも示しています。
論文 参考訳(メタデータ) (2024-03-15T00:09:47Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Diverse Imitation Learning via Self-Organizing Generative Models [6.783186172518836]
模倣学習は、報酬関数へのアクセスなしに、デモンストレーションから専門家のポリシーを複製するタスクである。
我々は,行動クローニング(BC)のためのエンコーダフリー生成モデルを採用し,異なるモードを正確に識別し,模倣する。
提案手法は,複数の実験において技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-06T21:55:31Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。