論文の概要: Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
- arxiv url: http://arxiv.org/abs/2506.01943v1
- Date: Mon, 02 Jun 2025 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.698063
- Title: Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
- Title(参考訳): 協調軌道制御によるロボットマニピュレーションのための学習映像生成
- Authors: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin,
- Abstract要約: 本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
- 参考スコア(独自算出の注目度): 72.00655365269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video diffusion models have demonstrated strong potential for generating robotic decision-making data, with trajectory conditions further enabling fine-grained control. However, existing trajectory-based methods primarily focus on individual object motion and struggle to capture multi-object interaction crucial in complex robotic manipulation. This limitation arises from multi-feature entanglement in overlapping regions, which leads to degraded visual fidelity. To address this, we present RoboMaster, a novel framework that models inter-object dynamics through a collaborative trajectory formulation. Unlike prior methods that decompose objects, our core is to decompose the interaction process into three sub-stages: pre-interaction, interaction, and post-interaction. Each stage is modeled using the feature of the dominant object, specifically the robotic arm in the pre- and post-interaction phases and the manipulated object during interaction, thereby mitigating the drawback of multi-object feature fusion present during interaction in prior work. To further ensure subject semantic consistency throughout the video, we incorporate appearance- and shape-aware latent representations for objects. Extensive experiments on the challenging Bridge V2 dataset, as well as in-the-wild evaluation, demonstrate that our method outperforms existing approaches, establishing new state-of-the-art performance in trajectory-controlled video generation for robotic manipulation.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、よりきめ細かい制御を可能にする軌道条件により、ロボットによる意思決定データを生成する強力な可能性を示している。
しかし、既存の軌道に基づく手法は主に個々の物体の動きに焦点をあて、複雑なロボット操作に不可欠な複数物体の相互作用を捉えるのに苦労している。
この制限は、重なり合う領域における多機能絡み合いから生じ、視力の低下につながる。
これを解決するために,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを提案する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
各ステージは、支配的対象の特徴、特に、前・後相互作用フェーズにおけるロボットアームと相互作用中の操作対象の特徴を用いてモデル化され、これにより、前処理における相互作用中に発生する多目的特徴融合の欠点を軽減できる。
ビデオ全体を通して、主題のセマンティックな一貫性をより確実にするために、オブジェクトの外観と形状を意識した潜在表現を取り入れる。
本手法が既存の手法よりも優れており,ロボット操作のためのトラジェクタ制御ビデオ生成における新たな最先端性能が確立されている。
関連論文リスト
- TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-14T14:09:31Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。