論文の概要: Diversifying Robot Locomotion Behaviors with Extrinsic Behavioral Curiosity
- arxiv url: http://arxiv.org/abs/2410.06151v3
- Date: Wed, 09 Jul 2025 09:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.013236
- Title: Diversifying Robot Locomotion Behaviors with Extrinsic Behavioral Curiosity
- Title(参考訳): 内在的行動好奇心を伴うロボットの移動行動の多様化
- Authors: Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Yew Soon Ong, Ivor Tsang,
- Abstract要約: 本稿では,QD-IRL(Quality Diversity Inverse Reinforcement Learning)とEBC(Extrinsic Behavioral Curiosity)を紹介する。
QD-IRLはIRL法と品質多様性最適化を統合しており、エージェントは限られたデモンストレーションから多様な振る舞いを学ぶことができる。
EBCは、エージェントが行動がいかに斬新であるかに基づいて、外部の批評家から追加の好奇心の報酬を受け取ることを可能にする。
- 参考スコア(独自算出の注目度): 27.272921087408164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) has shown promise in robot locomotion but is often limited to learning a single expert policy, constraining behavior diversity and robustness in unpredictable real-world scenarios. To address this, we introduce Quality Diversity Inverse Reinforcement Learning (QD-IRL), a novel framework that integrates quality-diversity optimization with IRL methods, enabling agents to learn diverse behaviors from limited demonstrations. This work introduces Extrinsic Behavioral Curiosity (EBC), which allows agents to receive additional curiosity rewards from an external critic based on how novel the behaviors are with respect to a large behavioral archive. To validate the effectiveness of EBC in exploring diverse locomotion behaviors, we evaluate our method on multiple robot locomotion tasks. EBC improves the performance of QD-IRL instances with GAIL, VAIL, and DiffAIL across all included environments by up to 185%, 42%, and 150%, even surpassing expert performance by 20% in Humanoid. Furthermore, we demonstrate that EBC is applicable to Gradient-Arborescence-based Quality Diversity Reinforcement Learning (QD-RL) algorithms, where it substantially improves performance and provides a generic technique for diverse robot locomotion. The source code of this work is provided at https://github.com/vanzll/EBC.
- Abstract(参考訳): 模倣学習(IL)はロボットの移動において有望であるが、予測不可能な現実のシナリオにおいて、行動の多様性と堅牢さを制約し、単一の専門家ポリシーを学ぶことに限定されることが多い。
この問題を解決するために,品質多様性逆強化学習(QD-IRL)を紹介する。これは,品質多様性の最適化とIRL手法を統合する新しいフレームワークで,エージェントは限られたデモンストレーションから多様な振る舞いを学習することができる。
この研究は、外的行動キュリオシティ(EBC)を導入し、エージェントは大きな行動アーカイブに関して、その行動がいかに斬新であるかに基づいて、外部の批評家から追加の好奇心の報酬を受け取ることができる。
多様な移動行動の探索におけるEBCの有効性を検証するため,複数のロボットの移動課題について評価を行った。
EBCは、GAIL、VAIL、DiffAILを含むすべての環境におけるQD-IRLインスタンスのパフォーマンスを最大で185%、42%、そして150%改善する。
さらに, EBCは, 性能を著しく向上し, 多様なロボットの移動に汎用的な技術を提供する, 勾配Arborescence-based Quality Diversity Reinforcement Learning (QD-RL) アルゴリズムに適用可能であることを示す。
この作業のソースコードはhttps://github.com/vanzll/EBC.comで公開されている。
関連論文リスト
- Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。
AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。
我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文 参考訳(メタデータ) (2025-03-26T04:05:50Z) - Imitation from Diverse Behaviors: Wasserstein Quality Diversity Imitation Learning with Single-Step Archive Exploration [37.836675202590406]
本研究はWasserstein Quality Diversity Imitation Learning (WQDIL)を紹介する。
Wasserstein Auto-Encoder (WAE) を用いた潜時対人訓練による品質多様性設定における模倣学習の安定性の向上
評価条件付き報酬関数と1ステップのアーカイブ探索ボーナスを用いて、行動過剰化問題を緩和する。
論文 参考訳(メタデータ) (2024-11-11T13:11:18Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Explorative Imitation Learning: A Path Signature Approach for Continuous Environments [9.416194245966022]
CILO(Continuous Imitation Learning from Observation)は、模倣学習を2つの重要な特徴で強化する新しい方法である。
CILO探索は、より多様な状態遷移を可能にし、専門家のトラジェクトリを少なくし、トレーニングのイテレーションを少なくする。
すべての環境において、すべての模倣学習手法の全体的なパフォーマンスが最も優れており、2つの環境において専門家よりも優れています。
論文 参考訳(メタデータ) (2024-07-05T20:25:39Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL) [1.0057319866872687]
本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
論文 参考訳(メタデータ) (2024-03-02T01:40:37Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。