論文の概要: Mask2IV: Interaction-Centric Video Generation via Mask Trajectories
- arxiv url: http://arxiv.org/abs/2510.03135v1
- Date: Fri, 03 Oct 2025 16:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.47414
- Title: Mask2IV: Interaction-Centric Video Generation via Mask Trajectories
- Title(参考訳): Mask2IV: マスク軌道によるインタラクション中心のビデオ生成
- Authors: Gen Li, Bo Zhao, Jianfei Yang, Laura Sevilla-Lara,
- Abstract要約: Mask2IVは、インタラクション中心のビデオ生成用に特別に設計された新しいフレームワークである。
分離された2段階のパイプラインを採用し、まずアクターとオブジェクトの両方の可塑性運動軌跡を予測し、これらの軌跡に条件付けされたビデオを生成する。
汎用的で直感的な制御をサポートしており、ユーザは対話対象を指定し、アクション記述や空間位置の手がかりを通じて運動軌跡をガイドすることができる。
- 参考スコア(独自算出の注目度): 32.04930240447431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating interaction-centric videos, such as those depicting humans or robots interacting with objects, is crucial for embodied intelligence, as they provide rich and diverse visual priors for robot learning, manipulation policy training, and affordance reasoning. However, existing methods often struggle to model such complex and dynamic interactions. While recent studies show that masks can serve as effective control signals and enhance generation quality, obtaining dense and precise mask annotations remains a major challenge for real-world use. To overcome this limitation, we introduce Mask2IV, a novel framework specifically designed for interaction-centric video generation. It adopts a decoupled two-stage pipeline that first predicts plausible motion trajectories for both actor and object, then generates a video conditioned on these trajectories. This design eliminates the need for dense mask inputs from users while preserving the flexibility to manipulate the interaction process. Furthermore, Mask2IV supports versatile and intuitive control, allowing users to specify the target object of interaction and guide the motion trajectory through action descriptions or spatial position cues. To support systematic training and evaluation, we curate two benchmarks covering diverse action and object categories across both human-object interaction and robotic manipulation scenarios. Extensive experiments demonstrate that our method achieves superior visual realism and controllability compared to existing baselines.
- Abstract(参考訳): 人間やロボットが物体と相互作用する様子などのインタラクション中心のビデオを生成することは、ロボット学習、操作ポリシートレーニング、余計な推論のためのリッチで多様な視覚的優先順位を提供するため、インテリジェンスを具現化する上で不可欠である。
しかし、既存の手法はしばしばそのような複雑で動的な相互作用をモデル化するのに苦労する。
近年の研究では、マスクが効果的な制御信号として機能し、生成品質を向上させることが示されているが、密集した正確なマスクアノテーションを得ることは、現実世界での使用において大きな課題である。
この制限を克服するために,インタラクション中心のビデオ生成に特化して設計された新しいフレームワークであるMask2IVを紹介する。
分離された2段階のパイプラインを採用し、まずアクターとオブジェクトの両方の可塑性運動軌跡を予測し、これらの軌跡に条件付けされたビデオを生成する。
この設計は、インタラクションプロセスを操作する柔軟性を維持しながら、ユーザからの密なマスク入力を不要にする。
さらに、Mask2IVは汎用的で直感的な制御をサポートし、ユーザは対話対象を指定し、アクション記述や空間位置の手がかりを通じて運動軌跡をガイドすることができる。
体系的なトレーニングと評価を支援するため、人間と物体の相互作用とロボット操作の両方のシナリオにおいて、多様なアクションとオブジェクトのカテゴリをカバーする2つのベンチマークをキュレートする。
広汎な実験により,本手法は既存のベースラインよりも優れた視覚的リアリズムと制御性を実現することが示された。
関連論文リスト
- Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。
以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - MaskedManipulator: Versatile Whole-Body Manipulation [38.02818493367002]
本研究では,大規模な人体モーションキャプチャーデータに基づいて学習したトラッキングコントローラから生成制御ポリシーであるMaskedManipulatorを紹介する。
この2段階の学習プロセスにより、システムは複雑なインタラクション動作を実行でき、キャラクタとオブジェクトの両方の動作を直感的に制御できる。
論文 参考訳(メタデータ) (2025-05-25T10:46:14Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。