論文の概要: Diverse Skill Discovery for Quadruped Robots via Unsupervised Learning
- arxiv url: http://arxiv.org/abs/2602.09767v1
- Date: Tue, 10 Feb 2026 13:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.325961
- Title: Diverse Skill Discovery for Quadruped Robots via Unsupervised Learning
- Title(参考訳): 教師なし学習による四足歩行ロボットの多様なスキル発見
- Authors: Ruopeng Cui, Yifei Bi, Haojie Luo, Wei Li,
- Abstract要約: 教師なしのスキル発見は、本質的なモチベーションによって引き起こされる有用なスキルの多様なレパートリーを学ぶことによって、負担を軽減する可能性がある。
オーソゴナル・ミックス・オブ・エキスパートアーキテクチャを導入し、多様な振る舞いが重なり合う表現に衝突することを防ぐ。
また、異なる識別器が異なる観測空間で動作し、報酬ハッキングを効果的に軽減する多識別器フレームワークを設計する。
- 参考スコア(独自算出の注目度): 2.9196984708596716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning necessitates meticulous reward shaping by specialists to elicit target behaviors, while imitation learning relies on costly task-specific data. In contrast, unsupervised skill discovery can potentially reduce these burdens by learning a diverse repertoire of useful skills driven by intrinsic motivation. However, existing methods exhibit two key limitations: they typically rely on a single policy to master a versatile repertoire of behaviors without modeling the shared structure or distinctions among them, which results in low learning efficiency; moreover, they are susceptible to reward hacking, where the reward signal increases and converges rapidly while the learned skills display insufficient actual diversity. In this work, we introduce an Orthogonal Mixture-of-Experts (OMoE) architecture that prevents diverse behaviors from collapsing into overlapping representations, enabling a single policy to master a wide spectrum of locomotion skills. In addition, we design a multi-discriminator framework in which different discriminators operate on distinct observation spaces, effectively mitigating reward hacking. We evaluated our method on the 12-DOF Unitree A1 quadruped robot, demonstrating a diverse set of locomotion skills. Our experiments demonstrate that the proposed framework boosts training efficiency and yields an 18.3\% expansion in state-space coverage compared to the baseline.
- Abstract(参考訳): 強化学習は、専門家による巧妙な報酬形成を必要とし、模倣学習はコストの高いタスク固有のデータに依存している。
対照的に、教師なしのスキル発見は、本質的なモチベーションによって引き起こされる有用なスキルの多様なレパートリーを学ぶことによって、これらの負担を軽減する可能性がある。
しかし、既存の手法では、共有された構造や区別をモデル化することなく、行動の多彩なレパートリーを習得するための単一のポリシーに依存しており、それによって学習効率が低下する。
本研究では,多種多様な動作が重なり合う表現に崩壊することを防止し,単一ポリシーで幅広い移動スキルを習得することを可能にする,オルソゴン混合(OMoE)アーキテクチャを提案する。
さらに、異なる識別器が異なる観測空間で動作し、報酬ハッキングを効果的に軽減する多識別器フレームワークを設計する。
本手法を12-DOF Unitree A1四足歩行ロボットを用いて評価し,移動能力の多様さを実証した。
実験の結果,提案フレームワークはトレーニング効率を向上し,ベースラインと比較して18.3倍の面積拡大を実現していることがわかった。
関連論文リスト
- SUSD: Structured Unsupervised Skill Discovery through State Factorization [12.57032768854794]
教師なしスキル発見(USD)は、外因的な報酬に頼ることなく、多様なスキルセットを自律的に学習することを目的としている。
状態空間を独立成分に分解することで環境の構成構造を利用する新しいフレームワークであるSUSDを紹介する。
SUSDは異なる要因に異なるスキル変数を割り当て、スキル発見プロセスのよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2026-02-02T04:21:33Z) - CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents [69.88668127604875]
グラフ拡張を用いたコードベースの逆自己学習フレームワークであるCOREを提案する。
COREは模倣と探索を橋渡しし、行動の多様性を促進する新しいトレーニングフレームワークを提供する。
WebとAndroidプラットフォームの実験では、COREは全体的なパフォーマンスと一般化の両方を著しく改善している。
論文 参考訳(メタデータ) (2026-01-05T15:24:05Z) - Diversifying Policy Behaviors with Extrinsic Behavioral Curiosity [27.272921087408164]
本稿では,QD-IRL(Quality Diversity Inverse Reinforcement Learning)とEBC(Extrinsic Behavioral Curiosity)を紹介する。
QD-IRLはIRL法と品質多様性最適化を統合しており、エージェントは限られたデモンストレーションから多様な振る舞いを学ぶことができる。
EBCは、エージェントが行動がいかに斬新であるかに基づいて、外部の批評家から追加の好奇心の報酬を受け取ることを可能にする。
論文 参考訳(メタデータ) (2024-10-08T15:49:33Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。