論文の概要: PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations
- arxiv url: http://arxiv.org/abs/2512.13093v1
- Date: Mon, 15 Dec 2025 08:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.58637
- Title: PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations
- Title(参考訳): PvP:原始受容型コントラスト表現を用いたデータ効率の良いヒューマノイドロボット学習
- Authors: Mingqi Yuan, Tao Yu, Haolin Song, Bo Li, Xin Jin, Hua Chen, Wenjun Zeng,
- Abstract要約: 全体制御(WBC)は、ヒューマノイドロボットが動的環境において複雑なタスクを実行できるために不可欠である。
本稿では,固有受容的状態と特権的状態の相補性を生かした,プロプリオセプティブ・プリビレグ型コントラスト学習フレームワークを提案する。
SRL4Humanoidは,ヒューマノイドロボット学習のための代表状態表現学習法(SRL)の高品質な実装を提供する,初めての統一・モジュール化されたフレームワークである。
- 参考スコア(独自算出の注目度): 30.986538644112105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving efficient and robust whole-body control (WBC) is essential for enabling humanoid robots to perform complex tasks in dynamic environments. Despite the success of reinforcement learning (RL) in this domain, its sample inefficiency remains a significant challenge due to the intricate dynamics and partial observability of humanoid robots. To address this limitation, we propose PvP, a Proprioceptive-Privileged contrastive learning framework that leverages the intrinsic complementarity between proprioceptive and privileged states. PvP learns compact and task-relevant latent representations without requiring hand-crafted data augmentations, enabling faster and more stable policy learning. To support systematic evaluation, we develop SRL4Humanoid, the first unified and modular framework that provides high-quality implementations of representative state representation learning (SRL) methods for humanoid robot learning. Extensive experiments on the LimX Oli robot across velocity tracking and motion imitation tasks demonstrate that PvP significantly improves sample efficiency and final performance compared to baseline SRL methods. Our study further provides practical insights into integrating SRL with RL for humanoid WBC, offering valuable guidance for data-efficient humanoid robot learning.
- Abstract(参考訳): ヒューマノイドロボットが動的環境下で複雑なタスクを実行できるためには、効率的で堅牢な全身制御(WBC)を実現することが不可欠である。
この領域での強化学習(RL)の成功にもかかわらず、そのサンプルの非効率性は、ヒューマノイドロボットの複雑なダイナミクスと部分的な観察性のために重要な課題である。
この制限に対処するため,本研究では,主観的・特権的状態間の本質的な相補性を利用する,主観的・主観的コントラスト学習フレームワークであるPvPを提案する。
PvPは手作りのデータ拡張を必要とせずにコンパクトでタスク関連の潜在表現を学習し、より高速で安定したポリシー学習を可能にする。
システム評価を支援するために,ヒューマノイドロボット学習のための代表状態表現学習(SRL)手法の高品質実装を提供する,初の統一・モジュール化されたフレームワークであるSRL4Humanoidを開発した。
LimX Oliロボットの速度追尾および運動模倣作業における広範囲な実験により、PvPはベースラインSRL法と比較してサンプル効率と最終性能を著しく向上することが示された。
さらに本研究では、データ効率のよいヒューマノイドロボット学習のための有用なガイダンスを提供するとともに、SRLとRLの統合に関する実践的な洞察を提供する。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。