論文の概要: Let Your Image Move with Your Motion! -- Implicit Multi-Object Multi-Motion Transfer
- arxiv url: http://arxiv.org/abs/2603.01000v1
- Date: Sun, 01 Mar 2026 09:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.456692
- Title: Let Your Image Move with Your Motion! -- Implicit Multi-Object Multi-Motion Transfer
- Title(参考訳): モーションでイメージを移動させよう -- 複数オブジェクトのマルチモーショントランスファーを伴って!
- Authors: Yuze Li, Dong Gong, Xiao Cao, Junchao Yuan, Dongsheng Li, Lei Zhou, Yun Sing Koh, Cheng Yan, Xinyu Zhang,
- Abstract要約: マルチオブジェクト・マルチモーション・トランスファーを可能にする最初の暗黙的イメージ・ツー・ビデオ(I2V)モーション・トランスファー・フレームワークであるFlexiMMTを提案する。
静的なマルチオブジェクト画像と複数の参照ビデオが与えられた場合、FlexiMMTは独立して動きの表現を抽出し、それらを異なるオブジェクトに正確に割り当てる。
We show that FlexiMMT achieves exact, compositional, and state-of-the-art performance in I2V-based multi-ject multi-motion transfer。
- 参考スコア(独自算出の注目度): 37.5894309503857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion transfer has emerged as a promising direction for controllable video generation, yet existing methods largely focus on single-object scenarios and struggle when multiple objects require distinct motion patterns. In this work, we present FlexiMMT, the first implicit image-to-video (I2V) motion transfer framework that explicitly enables multi-object, multi-motion transfer. Given a static multi-object image and multiple reference videos, FlexiMMT independently extracts motion representations and accurately assigns them to different objects, supporting flexible recombination and arbitrary motion-to-object mappings. To address the core challenge of cross-object motion entanglement, we introduce a Motion Decoupled Mask Attention Mechanism that uses object-specific masks to constrain attention, ensuring that motion and text tokens only influence their designated regions. We further propose a Differentiated Mask Propagation Mechanism that derives object-specific masks directly from diffusion attention and progressively propagates them across frames efficiently. Extensive experiments demonstrate that FlexiMMT achieves precise, compositional, and state-of-the-art performance in I2V-based multi-object multi-motion transfer.
- Abstract(参考訳): モーション転送は、制御可能なビデオ生成のための有望な方向として現れてきたが、既存の方法は、複数のオブジェクトが異なるモーションパターンを必要とする場合に、主に単一オブジェクトのシナリオと苦労に焦点を当てている。
本研究では,マルチオブジェクト・マルチモーション・トランスファーを明示的に実現した最初の暗黙的イメージ・ビデオ(I2V)モーション・トランスファー・フレームワークであるFlexiMMTを提案する。
静的なマルチオブジェクト画像と複数の参照ビデオが与えられたとき、FlexiMMTは独立して動きの表現を抽出し、それらを異なるオブジェクトに正確に割り当て、柔軟な再結合と任意の動きのオブジェクトマッピングをサポートする。
物体間移動の絡み合いの中核となる課題に対処するため,物体固有のマスクを用いて注意を拘束し,動きやテキストトークンが指定された領域にのみ影響することを保証する運動分離マスク注意機構を導入する。
さらに,物体固有のマスクを拡散注意から直接導出し,フレーム間を効率よく伝播する微分マスク伝搬機構を提案する。
広汎な実験により,I2Vを用いた多目的マルチモーショントランスファーにおいて,FlexiMMTは精度,構成,最先端の性能を達成できることが示された。
関連論文リスト
- MultiMotion: Multi Subject Video Motion Transfer via Video Diffusion Transformer [9.496215243631102]
MultiMotionは、マルチオブジェクトビデオモーション転送のための新しい統合フレームワークである。
私たちの中心となるイノベーションは,Maskaware Attention Motion Flow(AMF)です。
RectPCは効率的かつ正確なサンプリングを行うための高次予測器・相関器である。
論文 参考訳(メタデータ) (2025-12-08T12:34:03Z) - ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-03T10:15:52Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。
これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。
MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文 参考訳(メタデータ) (2025-03-22T08:32:56Z) - Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。