論文の概要: One-Shot Real-World Demonstration Synthesis for Scalable Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2512.09297v2
- Date: Sun, 01 Feb 2026 11:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.248105
- Title: One-Shot Real-World Demonstration Synthesis for Scalable Bimanual Manipulation
- Title(参考訳): スケーラブルなバイマンダルマニピュレーションのためのワンショット実世界デモレーション合成
- Authors: Huayi Zhou, Kui Jia,
- Abstract要約: BiDemoSynは1つの実世界の例から、接触に富んだ物理的に実現可能なバイマダルなデモンストレーションを合成するフレームワークである。
BiDemoSynデータに基づいてトレーニングされたポリシーは、新しいオブジェクトのポーズや形状に対して堅牢に一般化されていることを示す。
BiDemoSynのデータに基づいてトレーニングされたポリシーは、ゼロショットのクロスボデーメントを新しいロボットプラットフォームに転送する。
- 参考スコア(独自算出の注目度): 45.00986521352502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning dexterous bimanual manipulation policies critically depends on large-scale, high-quality demonstrations, yet current paradigms face inherent trade-offs: teleoperation provides physically grounded data but is prohibitively labor-intensive, while simulation-based synthesis scales efficiently but suffers from sim-to-real gaps. We present BiDemoSyn, a framework that synthesizes contact-rich, physically feasible bimanual demonstrations from a single real-world example. The key idea is to decompose tasks into invariant coordination blocks and variable, object-dependent adjustments, then adapt them through vision-guided alignment and lightweight trajectory optimization. This enables the generation of thousands of diverse and feasible demonstrations within several hour, without repeated teleoperation or reliance on imperfect simulation. Across six dual-arm tasks, we show that policies trained on BiDemoSyn data generalize robustly to novel object poses and shapes, significantly outperforming recent strong baselines. Beyond the one-shot setting, BiDemoSyn naturally extends to few-shot-based synthesis, improving object-level diversity and out-of-distribution generalization while maintaining strong data efficiency. Moreover, policies trained on BiDemoSyn data exhibit zero-shot cross-embodiment transfer to new robotic platforms, enabled by object-centric observations and a simplified 6-DoF end-effector action representation that decouples policies from embodiment-specific dynamics. By bridging the gap between efficiency and real-world fidelity, BiDemoSyn provides a scalable path toward practical imitation learning for complex bimanual manipulation without compromising physical grounding.
- Abstract(参考訳): 遠隔操作は物理的に根拠のあるデータを提供するが、労働集約的であり、シミュレーションベースの合成は効率的にスケールするが、シミュレーションから現実のギャップに苦しむ。
実世界の1つの実例から、接触に富んだ物理的に実現可能なバイマンデモを合成するフレームワークであるBiDemoSynを提案する。
鍵となる考え方は、タスクを不変の調整ブロックと可変なオブジェクト依存の調整に分解し、視覚誘導アライメントと軽量な軌道最適化によってそれらを適応させることである。
これにより、遠隔操作を繰り返したり、不完全なシミュレーションに依存することなく、数時間以内に何千もの多様かつ実現可能なデモを生成できる。
6つのデュアルアームタスクにわたって、BiDemoSynデータに基づいてトレーニングされたポリシーは、新しいオブジェクトのポーズや形状に頑健に一般化され、最近の強いベースラインよりも著しく優れていることを示す。
ワンショット設定以外にも、BiDemoSynは自然に少数ショットベースの合成に拡張し、強力なデータ効率を維持しながら、オブジェクトレベルの多様性とアウト・オブ・ディストリビューションの一般化を改善している。
さらに、BiDemoSynデータに基づいてトレーニングされたポリシーは、オブジェクト中心の観察と、エボデーメント固有のダイナミクスからポリシーを分離する6-DoFエンドエフェクタアクション表現によって、新しいロボットプラットフォームへのゼロショットのクロスボデーメント転送を示す。
BiDemoSynは、効率性と現実世界の忠実さのギャップを埋めることによって、物理的な接地を損なうことなく、複雑な双方向操作のための実践的な模倣学習へのスケーラブルなパスを提供する。
関連論文リスト
- D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。
提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。
これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T15:32:04Z) - VT-Refine: Learning Bimanual Assembly with Visuo-Tactile Feedback via Simulation Fine-Tuning [39.49846628626501]
人間は、リッチな触覚フィードバックに適応することで、バイマニュアルアセンブリータスクで卓越する。
VT-Refineは、実世界の実演、高忠実度触覚シミュレーション、強化学習を組み合わせた、ビジュオ触覚政策学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-16T17:41:36Z) - DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model [22.46947045094797]
我々は,シミュレーションで訓練された単一ポリシーを,現実世界のさまざまな対象や条件に一般化することのできる,新しいフレームワークを開発した。
単一のポリシーは、複雑な形状(例えば動物)、高いアスペクト比(最大5.33)、小さなサイズで挑戦対象を回転させることに成功した。
論文 参考訳(メタデータ) (2025-10-09T17:59:11Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training [21.855770200309674]
一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
論文 参考訳(メタデータ) (2025-09-23T04:32:53Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。