論文の概要: MotionGrounder: Grounded Multi-Object Motion Transfer via Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2604.00853v1
- Date: Wed, 01 Apr 2026 13:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.996361
- Title: MotionGrounder: Grounded Multi-Object Motion Transfer via Diffusion Transformer
- Title(参考訳): MotionGrounder:拡散変圧器による接地多目的運動伝達
- Authors: Samuel Teodoro, Yun Chen, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim,
- Abstract要約: モーション転送は、基準映像から時間的ダイナミクスを転送して、ターゲットキャプションに設定された新しい映像を合成することにより、制御可能な映像生成を可能にする。
動作伝達を多目的制御性で処理するDiTベースのフレームワークであるMotionGrounderを紹介する。
実験の結果,MotionGrounderは定量的,質的,人的評価において,最近のベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 34.080740212072655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion transfer enables controllable video generation by transferring temporal dynamics from a reference video to synthesize a new video conditioned on a target caption. However, existing Diffusion Transformer (DiT)-based methods are limited to single-object videos, restricting fine-grained control in real-world scenes with multiple objects. In this work, we introduce MotionGrounder, a DiT-based framework that firstly handles motion transfer with multi-object controllability. Our Flow-based Motion Signal (FMS) in MotionGrounder provides a stable motion prior for target video generation, while our Object-Caption Alignment Loss (OCAL) grounds object captions to their corresponding spatial regions. We further propose a new Object Grounding Score (OGS), which jointly evaluates (i) spatial alignment between source video objects and their generated counterparts and (ii) semantic consistency between each generated object and its target caption. Our experiments show that MotionGrounder consistently outperforms recent baselines across quantitative, qualitative, and human evaluations.
- Abstract(参考訳): モーション転送は、基準映像から時間的ダイナミクスを転送して、ターゲットキャプションに設定された新しい映像を合成することにより、制御可能な映像生成を可能にする。
しかし、既存のDiffusion Transformer (DiT) ベースの手法は単一のオブジェクトビデオに限られており、複数のオブジェクトを持つ現実世界のシーンではきめ細かい制御が制限されている。
本研究では、まず、多目的制御性を持つモーショントランスファーを処理するDiTベースのフレームワークであるMotionGrounderを紹介する。
MotionGrounder の Flow-based Motion Signal (FMS) は、ターゲット映像生成に先立って安定した動きを提供する一方、OAL はオブジェクトキャプションを対応する空間領域に配置する。
さらに,共同評価を行う新しいオブジェクトグラウンドスコア(OGS)を提案する。
一 ソース映像オブジェクトとその生成されたオブジェクト間の空間的アライメント
(ii) 生成された各オブジェクトとそのターゲットキャプション間のセマンティック一貫性。
実験の結果,MotionGrounderは定量的,質的,人的評価において,最近のベースラインを一貫して上回っていることがわかった。
関連論文リスト
- Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。
私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。
Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文 参考訳(メタデータ) (2025-12-09T16:13:55Z) - MultiMotion: Multi Subject Video Motion Transfer via Video Diffusion Transformer [9.496215243631102]
MultiMotionは、マルチオブジェクトビデオモーション転送のための新しい統合フレームワークである。
私たちの中心となるイノベーションは,Maskaware Attention Motion Flow(AMF)です。
RectPCは効率的かつ正確なサンプリングを行うための高次予測器・相関器である。
論文 参考訳(メタデータ) (2025-12-08T12:34:03Z) - Motion Marionette: Rethinking Rigid Motion Transfer via Prior Guidance [26.642143303176997]
Motion Marionetteは、モノクルソースビデオからシングルビューターゲット画像への厳格なモーション転送のためのフレームワークである。
動画から動き軌跡を抽出して空間時間(SpaT)を予め構築する。
結果の速度場は、効率的なビデオ制作に柔軟に利用することができる。
論文 参考訳(メタデータ) (2025-11-25T04:34:42Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。