Fugu-MT 論文翻訳(概要): Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

論文の概要: Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control

arxiv url: http://arxiv.org/abs/2506.01943v1
Date: Mon, 02 Jun 2025 17:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.698063
Title: Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
Title（参考訳）: 協調軌道制御によるロボットマニピュレーションのための学習映像生成
Authors: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin,
Abstract要約: 本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
参考スコア（独自算出の注目度）: 72.00655365269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in video diffusion models have demonstrated strong potential for generating robotic decision-making data, with trajectory conditions further enabling fine-grained control. However, existing trajectory-based methods primarily focus on individual object motion and struggle to capture multi-object interaction crucial in complex robotic manipulation. This limitation arises from multi-feature entanglement in overlapping regions, which leads to degraded visual fidelity. To address this, we present RoboMaster, a novel framework that models inter-object dynamics through a collaborative trajectory formulation. Unlike prior methods that decompose objects, our core is to decompose the interaction process into three sub-stages: pre-interaction, interaction, and post-interaction. Each stage is modeled using the feature of the dominant object, specifically the robotic arm in the pre- and post-interaction phases and the manipulated object during interaction, thereby mitigating the drawback of multi-object feature fusion present during interaction in prior work. To further ensure subject semantic consistency throughout the video, we incorporate appearance- and shape-aware latent representations for objects. Extensive experiments on the challenging Bridge V2 dataset, as well as in-the-wild evaluation, demonstrate that our method outperforms existing approaches, establishing new state-of-the-art performance in trajectory-controlled video generation for robotic manipulation.
Abstract（参考訳）: ビデオ拡散モデルの最近の進歩は、よりきめ細かい制御を可能にする軌道条件により、ロボットによる意思決定データを生成する強力な可能性を示している。しかし、既存の軌道に基づく手法は主に個々の物体の動きに焦点をあて、複雑なロボット操作に不可欠な複数物体の相互作用を捉えるのに苦労している。この制限は、重なり合う領域における多機能絡み合いから生じ、視力の低下につながる。これを解決するために,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを提案する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。各ステージは、支配的対象の特徴、特に、前・後相互作用フェーズにおけるロボットアームと相互作用中の操作対象の特徴を用いてモデル化され、これにより、前処理における相互作用中に発生する多目的特徴融合の欠点を軽減できる。ビデオ全体を通して、主題のセマンティックな一貫性をより確実にするために、オブジェクトの外観と形状を意識した潜在表現を取り入れる。本手法が既存の手法よりも優れており,ロボット操作のためのトラジェクタ制御ビデオ生成における新たな最先端性能が確立されている。

関連論文リスト

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文参考訳（メタデータ） (2025-03-14T14:09:31Z)
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文参考訳（メタデータ） (2025-02-27T08:21:03Z)
CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph [12.54884302440877]
モバイル探索は、ロボット工学における長年の課題である。アクティブな相互作用による既存のロボット探査アプローチは、しばしばテーブルトップシーンに制限される。本稿では,多種多様なオブジェクト関係を符号化し,活発な相互作用による探索を可能にする3Dリレーショナルオブジェクトグラフを提案する。
論文参考訳（メタデータ） (2025-01-23T02:39:04Z)
Diffgrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model [25.00532805042292]
本稿では,身体,手,与えられた物体の動き列の関係をモデル化する,シンプルで効果的な枠組みを提案する。我々は,新たな接触認識損失を導入し,データ駆動型,慎重に設計されたガイダンスを取り入れた。実験の結果,本手法は最先端の手法より優れ,至適な全身運動系列を生成することがわかった。
論文参考訳（メタデータ） (2024-12-30T02:21:43Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-24T17:59:56Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
Leveraging Next-Active Objects for Context-Aware Anticipation in Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文参考訳（メタデータ） (2023-08-16T12:07:02Z)
Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文参考訳（メタデータ） (2023-06-06T19:50:02Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。