論文の概要: Generalist Bimanual Manipulation via Foundation Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.12898v1
- Date: Thu, 17 Jul 2025 08:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.406289
- Title: Generalist Bimanual Manipulation via Foundation Video Diffusion Models
- Title(参考訳): ファンデーションビデオ拡散モデルによる汎用的バイマニピュレーション
- Authors: Yao Feng, Hengkai Tan, Xinyi Mao, Guodong Liu, Shuhe Huang, Chendong Xiang, Hang Su, Jun Zhu,
- Abstract要約: Video Diffusion for Action Reasoning (VIDAR)を紹介する。
VIDARは、大規模な拡散ベースのビデオ事前トレーニングと、アクション予測のための新しい逆ダイナミクスモデルを活用する2段階フレームワークである。
我々の実験では、ロボットプラットフォーム上での人間によるデモをわずか20分で行うと、VIDARは目立たないタスクや背景を強力な意味理解で一般化する。
- 参考スコア(独自算出の注目度): 21.424029706788883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual robotic manipulation, which involves the coordinated control of two robotic arms, is foundational for solving challenging tasks. Despite recent progress in general-purpose manipulation, data scarcity and embodiment heterogeneity remain serious obstacles to further scaling up in bimanual settings. In this paper, we introduce VIdeo Diffusion for Action Reasoning (VIDAR), a two-stage framework that leverages large-scale, diffusion-based video pre-training and a novel masked inverse dynamics model for action prediction. We pre-train the video diffusion model on 750K multi-view videos from three real-world bimanual robot platforms, utilizing a unified observation space that encodes robot, camera, task, and scene contexts. Our masked inverse dynamics model learns masks to extract action-relevant information from generated trajectories without requiring pixel-level labels, and the masks can effectively generalize to unseen backgrounds. Our experiments demonstrate that with only 20 minutes of human demonstrations on an unseen robot platform (only 1% of typical data requirements), VIDAR generalizes to unseen tasks and backgrounds with strong semantic understanding, surpassing state-of-the-art methods. Our findings highlight the potential of video foundation models, coupled with masked action prediction, to enable scalable and generalizable robotic manipulation in diverse real-world settings.
- Abstract(参考訳): 2つのロボットアームを協調制御するバイマニュアルロボット操作は、困難な課題を解決するための基礎となる。
近年の汎用的な操作の進歩にもかかわらず、データの不足と不均一性は、両面的な設定でさらにスケールアップする上で深刻な障害となっている。
本稿では,大規模な拡散型ビデオ事前学習を利用する2段階フレームワークであるVIIDAR(VIdeo Diffusion for Action Reasoning)と,行動予測のための新しいマスク付き逆ダイナミクスモデルを提案する。
我々は、ロボット、カメラ、タスク、シーンコンテキストをエンコードする統一された観察空間を利用して、3つの実世界のバイマニュアルロボットプラットフォームから750Kのマルチビュービデオ上でビデオ拡散モデルを事前訓練する。
マスクを用いた逆ダイナミクスモデルでは, 画素レベルのラベルを必要とせずに, 生成した軌跡から行動関連情報を抽出するマスクを学習し, マスクを効果的に未知の背景に一般化することができる。
我々の実験は、ロボットプラットフォーム上で20分間の人間によるデモ(典型的なデータ要求の1%)で、VIDARは、高度な意味理解と最先端の手法を超越した、目に見えないタスクやバックグラウンドに一般化することを実証した。
本研究は,映像基盤モデルとマスクされた動作予測を組み合わせることで,多様な実世界の環境において,スケーラブルで汎用的なロボット操作を可能にする可能性を強調した。
関連論文リスト
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。