論文の概要: Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data
- arxiv url: http://arxiv.org/abs/2605.16043v1
- Date: Fri, 15 May 2026 15:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.345247
- Title: Learning Sim-Grounded Policies for Bimanual Rope Manipulation from Human Teleoperation Data
- Title(参考訳): 遠隔操作データを用いたバイマニカルロープマニピュレーションのためのシモングラウンドポリシの学習
- Authors: Gina Wigginghaus, Tim Missal, Berk Guler, Simon Manschitz, Jan Peters,
- Abstract要約: 結び目回避作業における自己中心型視覚ポリシーの一般化の欠如が観察空間自体に起因しているかどうかを考察する。
同じ双方向遠隔操作データに基づいてトレーニングされた2つのアクションチャンキングとトランスフォーマーポリシーを比較した。
状態ベースのポリシーは、最初の掴み取り動作を予測する際に、L1エラーを30.8%削減することで視覚的よりも優れる。
- 参考スコア(独自算出の注目度): 12.632998789712547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deformable Linear Objects (DLOs) such as ropes and cables are widely encountered in both household and industrial applications, yet remain challenging to manipulate due to their infinite-dimensional configuration space and frequent self-occlusion. Imitation learning from teleoperation offers a practical path to bimanual DLO manipulation, but its scalability is limited by human effort, making the choice of observation space critical for generalization from small datasets. In this study, we investigate whether the lack of generalization in egocentric visual policies for the knot-untangling task stems from the observation space itself, rather than from the policy architecture or data scale. We compare two Action Chunking with Transformers policies trained on the same bimanual teleoperation data: a vision-based policy conditioned on two egocentric RGB streams from wrist-mounted cameras, and a state-based policy conditioned on the DLO's 3D particle state, extracted from an initial observation via multi-view fusion and evolved in a particle-based eXtended Position-Based Dynamics simulation. Evaluated open-loop on an unseen rope configuration, the state-based policy outperforms its visual counterpart with a 30.8% reduction in L1 error when predicting the initial grasp-and-pull action, quantifying the observability gap between pixels and physics-consistent state, and pointing toward more data-efficient robot learning for the DLO manipulation task from limited human demonstrations.
- Abstract(参考訳): ロープやケーブルなどの変形可能な線形オブジェクト(DLO)は、家庭でも産業でも広く見られるが、無限次元の構成空間と頻繁な自己閉塞のため操作は困難である。
遠隔操作からの模倣学習は、双方向DLO操作への実践的な経路を提供するが、そのスケーラビリティは人間の努力によって制限され、小さなデータセットからの一般化のために観察空間の選択が重要となる。
本研究では,結び目回避作業におけるエゴセントリックな視覚ポリシーの一般化の欠如が,政策アーキテクチャやデータスケールではなく,観察空間自体に起因しているかどうかを考察する。
2つのアクションチャンキングとトランスフォーマーのポリシーを同一の双方向遠隔操作データに基づいてトレーニングし、手首に搭載されたカメラから2つの自我中心のRGBストリームに条件付けされたビジョンベースのポリシーと、DLOの3次元粒子状態に条件付けされた状態ベースのポリシーを比較し、マルチビュー融合による最初の観測から抽出し、粒子ベースのeXtended Position-based Dynamicsシミュレーションで進化させた。
未確認のロープ構成でのオープンループの評価では、状態ベースのポリシーは、最初のグリップ・アンド・プル動作を予測する際のL1エラーを30.8%削減し、ピクセルと物理一貫性のある状態の間の可観測性ギャップを定量化し、限られた人間のデモンストレーションからDLO操作タスクのためのよりデータ効率のよいロボット学習を指している。
関連論文リスト
- WARPED: Wrist-Aligned Rendering for Robot Policy Learning from Egocentric Human Demonstrations [10.024841990710177]
WARPEDは人間のデモビデオからリアルな手首ビューの観察を合成するためのフレームワークである。
ハンドオブジェクトインタラクションパイプラインを使用して、手と操作対象を追跡し、軌道をロボットのエンドエフェクタに再ターゲットする。
我々は、WARPEDが5つのテーブルトップ操作タスクのための遠隔操作デモデータに基づいて訓練されたポリシーに匹敵する成功率を達成することを実証した。
論文 参考訳(メタデータ) (2026-04-12T20:40:59Z) - Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - UniStateDLO: Unified Generative State Estimation and Tracking of Deformable Linear Objects Under Occlusion for Constrained Manipulation [45.803487170590266]
変形可能な線形物体(DLO)の知覚は下流操作を成功させる基盤となる。
本稿では,深層学習を用いた最初の完全DLO認識パイプラインUniStateDLOを提案する。
論文 参考訳(メタデータ) (2025-12-19T16:35:02Z) - Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer [59.02729900344616]
GPUを加速したフォトリアリスティックなシミュレーションは、ロボット学習のためのスケーラブルなデータ生成パスを開いた。
視覚に基づくヒューマノイドロコ操作のための教師-学生-ブートストラップ学習フレームワークを開発した。
これは、純粋なRGB知覚を用いた多様な調音ロコ操作が可能な初めてのヒューマノイド・シム・トゥ・リアル政策である。
論文 参考訳(メタデータ) (2025-11-30T20:07:13Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation [16.26835655544884]
本稿では,変形可能な線形オブジェクト(DLO)を視覚的知覚に基づいて操作するための統合フレームワークを提案する。
物理パラメータの後方分布を計算し、それぞれのDLOの挙動を概略シミュレートする。
次に、シムベースの政策学習と実世界のパフォーマンスにおいて、結果の領域分布の影響について検討する。
論文 参考訳(メタデータ) (2025-02-25T20:01:06Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。