論文の概要: MultiMotion: Multi Subject Video Motion Transfer via Video Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2512.07500v1
- Date: Mon, 08 Dec 2025 12:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.884787
- Title: MultiMotion: Multi Subject Video Motion Transfer via Video Diffusion Transformer
- Title(参考訳): MultiMotion:ビデオ拡散変換器による多目的映像の移動
- Authors: Penghui Liu, Jiangshan Wang, Yutong Shen, Shanhui Mo, Chenyang Qi, Yue Ma,
- Abstract要約: MultiMotionは、マルチオブジェクトビデオモーション転送のための新しい統合フレームワークである。
私たちの中心となるイノベーションは,Maskaware Attention Motion Flow(AMF)です。
RectPCは効率的かつ正確なサンプリングを行うための高次予測器・相関器である。
- 参考スコア(独自算出の注目度): 9.496215243631102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-object video motion transfer poses significant challenges for Diffusion Transformer (DiT) architectures due to inherent motion entanglement and lack of object-level control. We present MultiMotion, a novel unified framework that overcomes these limitations. Our core innovation is Maskaware Attention Motion Flow (AMF), which utilizes SAM2 masks to explicitly disentangle and control motion features for multiple objects within the DiT pipeline. Furthermore, we introduce RectPC, a high-order predictor-corrector solver for efficient and accurate sampling, particularly beneficial for multi-entity generation. To facilitate rigorous evaluation, we construct the first benchmark dataset specifically for DiT-based multi-object motion transfer. MultiMotion demonstrably achieves precise, semantically aligned, and temporally coherent motion transfer for multiple distinct objects, maintaining DiT's high quality and scalability. The code is in the supp.
- Abstract(参考訳): 多目的ビデオモーション転送は、固有な動きの絡み合いとオブジェクトレベルの制御の欠如により、拡散トランスフォーマー(DiT)アーキテクチャーにとって大きな課題となる。
これらの制限を克服する新しい統合フレームワークであるMultiMotionを紹介します。
これはSAM2マスクを使用して、DiTパイプライン内の複数のオブジェクトに対して、運動機能を明示的に切り離し、制御するものです。
さらに,高速かつ正確なサンプリングを行うための高次予測器・相関器であるRectPCを導入し,特にマルチエンタリティ生成に有用である。
厳密な評価を容易にするため、我々はDiTベースの多目的モーショントランスファーに特化した最初のベンチマークデータセットを構築した。
MultiMotionは、複数の異なるオブジェクトに対して正確に、セマンティックに整列し、時間的にコヒーレントなモーション転送を実現し、DiTの高品質とスケーラビリティを維持する。
コードはサップにあります。
関連論文リスト
- OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、効率的な2段階ビデオモーション転送フレームワークである。
本稿では,空間的外観と時間的動き処理のための注意構造を分離する空間的時間的疎結合LoRAを提案する。
第2のトレーニング段階では、調整速度を高速化するためにスパース動作サンプリングと適応RoPEを設計する。
論文 参考訳(メタデータ) (2025-06-05T16:18:32Z) - MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。
これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。
MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文 参考訳(メタデータ) (2025-03-22T08:32:56Z) - VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.172040706657235]
本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。
VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-26T11:28:01Z) - MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。
我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。
本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文 参考訳(メタデータ) (2024-07-30T18:57:06Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。