論文の概要: MonoDuo: Using One Robot Arm to Learn Bimanual Policies
- arxiv url: http://arxiv.org/abs/2605.29298v1
- Date: Thu, 28 May 2026 03:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.629441
- Title: MonoDuo: Using One Robot Arm to Learn Bimanual Policies
- Title(参考訳): MonoDuo:ロボットアームを使ってバイマニカルなポリシーを学ぶ
- Authors: Sandeep Bajamahal, Lawrence Yunliang Chen, Toru Lin, Zehan Ma, Jitendra Malik, Ken Goldberg,
- Abstract要約: 単腕ロボットのデモと人間のコラボレーションを組み合わせ,双方向操作ポリシーを学習するフレームワークであるMonoDuoについて述べる。
MonoDuoは、片腕ロボットを遠隔操作して、両腕のタスクの片面を実行する。
ボックスリフト,バックパックパッキング,布の折り畳み,ジャケットのジッピング,ハンドオーバープレートの5つのタスクについてMonoDuoを評価した。
- 参考スコア(独自算出の注目度): 40.1404286878975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual coordination is essential for many real-world manipulation tasks, yet learning bimanual robot policies is limited by the scarcity of bimanual robots and datasets. Single-arm robots, however, are widely available in research labs. Can we leverage them to train bimanual robot policies? We present MonoDuo, a framework for learning bimanual manipulation policies using single-arm robot demonstrations paired with human collaboration. MonoDuo collects data by teleoperating a single-arm robot to perform one side of a bimanual task while a human performs the other, then swapping roles to cover both sides. RGB-D observations from a wrist-mounted and fixed camera are augmented into synthetic demonstrations for target bimanual robots using state-of-the-art hand pose estimation, image and point cloud segmentation, and inpainting. These synthetic demonstrations, grounded in real robot kinematics, are used to train bimanual policies. We evaluate MonoDuo on five tasks: box lifting, backpack packing, cloth folding, jacket zipping, and plate handover. Compared to approaches relying solely on human bimanual videos, MonoDuo enables zero-shot deployment on unseen bimanual robot configurations, achieving success rates up to 70%. With only 25 target robot demonstrations, few-shot finetuning further boosts success rates by 65-70% over training from scratch, demonstrating MonoDuo's effectiveness in efficiently transferring knowledge from single-arm robot data to bimanual robot policies.
- Abstract(参考訳): 多くの実世界の操作タスクにおいて、双方向調整は不可欠であるが、バイマニュアルロボットとデータセットの不足により、バイマニュアルロボットポリシーの学習は制限される。
しかし、シングルアームロボットは研究室で広く利用することができる。
バイマニュアルロボットポリシーのトレーニングに活用できるのか?
単腕ロボットのデモと人間のコラボレーションを組み合わせ,双方向操作ポリシーを学習するフレームワークであるMonoDuoについて述べる。
MonoDuoは、片腕ロボットを遠隔操作してバイマニュアルタスクの片面を実行し、もう片面を人間が実行し、両方の側面をカバーするために役割を交換することで、データを収集する。
手首に装着された固定されたカメラからのRGB-D観測は、最先端の手ポーズ推定、画像と点雲のセグメンテーション、塗装を用いて、標的となるバイマニアルロボットのための合成デモに拡張される。
これらの人工的なデモは、実際のロボットキネマティクスに基礎を置いており、バイマニュアルポリシーの訓練に使われている。
ボックスリフト,バックパックパッキング,布の折り畳み,ジャケットジッピング,プレートハンドオーバーの5つのタスクについてMonoDuoを評価した。
人間のバイマニュアルビデオにのみ依存するアプローチと比較して、MonoDuoは目に見えないバイマニュアルなロボット構成をゼロショットでデプロイすることができ、最大70%の成功率を達成することができる。
わずか25の目標ロボットデモで、数発のファインタニングにより、スクラッチからトレーニングよりも65-70%の成功率が向上し、シングルアームロボットデータからバイマニュアルロボットポリシーへの知識の効率的な転送におけるMonoDuoの有効性が証明された。
関連論文リスト
- EasyMimic: A Low-Cost Framework for Robot Imitation Learning from Human Videos [51.158081196253626]
EasyMimicは、人間のビデオデモからロボットが操作ポリシーを学習することを可能にするフレームワークである。
本手法は,まずビデオから手指の3次元軌跡を抽出する。
アクションアライメントモジュールは、これらの軌道を低コストロボットのグリップ制御空間にマッピングする。
論文 参考訳(メタデータ) (2026-02-12T00:41:01Z) - H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。
本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。
我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文 参考訳(メタデータ) (2025-10-01T04:21:12Z) - DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy [33.18108154271181]
ロボットが自然環境下で操作タスクを実行できるシンプルでスケーラブルな方法であるDemoDiffusionを提案する。
まず、人間の実演における手の動きは、ロボットのエンドエフェクター軌道に有用な事前情報を提供する。
第二に、この再ターゲティングされた動きはタスクの全体構造をキャプチャするが、コンテキスト内でのもっともらしいロボットの動作とうまく一致しないかもしれない。
論文 参考訳(メタデータ) (2025-06-25T17:59:01Z) - EgoZero: Robot Learning from Smart Glasses [54.6168258133554]
EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。