Fugu-MT 論文翻訳(概要): Quality Diversity Imitation Learning

論文の概要: Quality Diversity Imitation Learning

arxiv url: http://arxiv.org/abs/2410.06151v1
Date: Tue, 8 Oct 2024 15:49:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 11:00:50.250236
Title: Quality Diversity Imitation Learning
Title（参考訳）: 品質の多様性を模倣する学習
Authors: Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Ivor Tsang,
Abstract要約: 品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
参考スコア（独自算出の注目度）: 9.627530753815968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imitation learning (IL) has shown great potential in various applications, such as robot control. However, traditional IL methods are usually designed to learn only one specific type of behavior since demonstrations typically correspond to a single expert. In this work, we introduce the first generic framework for Quality Diversity Imitation Learning (QD-IL), which enables the agent to learn a broad range of skills from limited demonstrations. Our framework integrates the principles of quality diversity with adversarial imitation learning (AIL) methods, and can potentially improve any inverse reinforcement learning (IRL) method. Empirically, our framework significantly improves the QD performance of GAIL and VAIL on the challenging continuous control tasks derived from Mujoco environments. Moreover, our method even achieves 2x expert performance in the most challenging Humanoid environment.
Abstract（参考訳）: 模倣学習(IL)は,ロボット制御など,様々な応用において大きな可能性を秘めている。しかしながら、従来のILメソッドは通常、1つの特定のタイプの振る舞いのみを学ぶように設計されている。本研究では,QD-IL(Quality Diversity Imitation Learning)の最初の汎用フレームワークを紹介する。本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。実験により,本フレームワークは,Mujoco環境からの連続制御タスクにおいてGAILとVAILのQD性能を著しく向上させる。さらに,最も難易度の高いヒューマノイド環境では,2倍の性能を実現する方法も提案した。

関連論文リスト

Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文参考訳（メタデータ） (2025-07-08T17:52:44Z)
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending [79.83865372778273]
SkillBlenderは、多目的なヒューマノイドロコ操作のための新しい階層的強化学習フレームワークである。 SkillBlenderは、まずゴール条件付きタスク非依存のプリミティブスキルを事前訓練し、その後、これらのスキルを動的にブレンドして複雑なロコ操作タスクを達成する。また,3つのエボディメント,4つのプリミティブスキル,8つの難解なロコ操作タスクを含む並列的,クロスエボディメント,多種多様なシミュレーションベンチマークであるSkillBenchを紹介した。
論文参考訳（メタデータ） (2025-06-11T03:24:26Z)
Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。 AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文参考訳（メタデータ） (2025-03-26T04:05:50Z)
MoE-Loco: Mixture of Experts for Multitask Locomotion [52.04025933292957]
脚付きロボットのマルチタスク移動のためのフレームワークであるMoE-Locoを提案する。本手法は,四足歩行と二足歩行をサポートしながら,多様な地形を扱える1つの政策を実現する。
論文参考訳（メタデータ） (2025-03-11T15:53:54Z)
Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration [37.836675202590406]
本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。 Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
論文参考訳（メタデータ） (2024-11-11T13:11:18Z)
Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。 LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文参考訳（メタデータ） (2024-10-15T00:41:18Z)
Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。 CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文参考訳（メタデータ） (2024-07-05T20:25:39Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文参考訳（メタデータ） (2024-03-11T17:49:18Z)
Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL) [1.0057319866872687]
本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。 CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
論文参考訳（メタデータ） (2024-03-02T01:40:37Z)
Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文参考訳（メタデータ） (2024-01-30T10:48:43Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
A Central Motor System Inspired Pre-training Reinforcement Learning for Robotic Control [7.227887302864789]
本稿では,CMS-PRLを提案する。まず、基本的なモータ報酬と相互情報報酬を組み合わせた融合報酬機構を導入する。第2に,基底神経節の運動プログラムにインスパイアされたスキルエンコーディング手法を設計し,リッチかつ継続的なスキル指導を提供する。第3に,運動能力の制御のためのスキルアクティビティ機能を提案する。
論文参考訳（メタデータ） (2023-11-14T00:49:12Z)
CasIL: Cognizing and Imitating Skills via a Dual Cognition-Action Architecture [20.627616015484648]
既存のロボットの模倣学習アプローチは、複雑なタスクにおける準最適性能と相容れない。ヒューリスティックには、通常のアクションの概念をデュアル認知(ハイレベル)-アクション(低レベル)アーキテクチャに拡張します。認知行動に基づくスキル模倣学習(CasIL)と呼ばれる,人間とロボットのインタラクションによる新しいスキルILフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-28T09:53:05Z)
Skill Disentanglement for Imitation Learning from Suboptimal Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文参考訳（メタデータ） (2023-06-13T17:24:37Z)
Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文参考訳（メタデータ） (2022-09-16T12:49:04Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Towards General and Autonomous Learning of Core Skills: A Case Study in Locomotion [19.285099263193622]
我々は,足の広いロボットに対して,洗練された移動動作を学習できる学習フレームワークを開発した。我々の学習フレームワークは、データ効率のよいマルチタスクRLアルゴリズムと、ロボット間で意味論的に同一の報酬関数のセットに依存している。現実世界の四足ロボットを含む9種類のロボットに対して、同じアルゴリズムが、多種多様な再利用可能な運動スキルを迅速に学習できることを実証する。
論文参考訳（メタデータ） (2020-08-06T08:23:55Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)
Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文参考訳（メタデータ） (2020-04-02T02:56:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。