論文の概要: MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
- arxiv url: http://arxiv.org/abs/2505.10238v3
- Date: Tue, 20 May 2025 08:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.3788
- Title: MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
- Title(参考訳): MTVCrafter: オープンワールドヒューマンイメージアニメーションのための4Dモーショントークン化
- Authors: Yanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang,
- Abstract要約: MTVCrafterは、人間の画像アニメーションのための生の3Dモーションシーケンスをモデル化する最初のフレームワークである。
2Dレンダリングされたポーズ画像と比較して、4Dモーショントークンはより堅牢な時間的手がかりを提供する。
MTVCrafterは様々なスタイルやシナリオで様々なオープンワールドキャラクター(シングル/複数、フル/半ボディ)を一般化する。
- 参考スコア(独自算出の注目度): 9.214404444864934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human image animation has gained increasing attention and developed rapidly due to its broad applications in digital humans. However, existing methods rely largely on 2D-rendered pose images for motion guidance, which limits generalization and discards essential 3D information for open-world animation. To tackle this problem, we propose MTVCrafter (Motion Tokenization Video Crafter), the first framework that directly models raw 3D motion sequences (i.e., 4D motion) for human image animation. Specifically, we introduce 4DMoT (4D motion tokenizer) to quantize 3D motion sequences into 4D motion tokens. Compared to 2D-rendered pose images, 4D motion tokens offer more robust spatio-temporal cues and avoid strict pixel-level alignment between pose image and character, enabling more flexible and disentangled control. Then, we introduce MV-DiT (Motion-aware Video DiT). By designing unique motion attention with 4D positional encodings, MV-DiT can effectively leverage motion tokens as 4D compact yet expressive context for human image animation in the complex 3D world. Hence, it marks a significant step forward in this field and opens a new direction for pose-guided human video generation. Experiments show that our MTVCrafter achieves state-of-the-art results with an FID-VID of 6.98, surpassing the second-best by 65%. Powered by robust motion tokens, MTVCrafter also generalizes well to diverse open-world characters (single/multiple, full/half-body) across various styles and scenarios. Our video demos and code are on: https://github.com/DINGYANB/MTVCrafter.
- Abstract(参考訳): 人間の画像アニメーションは、デジタル人間に広く応用されているため、注目され、急速に発展してきた。
しかし、既存の手法は、動き誘導のための2Dレンダリングされたポーズ画像に大きく依存しており、これは一般化を制限し、オープンワールドアニメーションに不可欠な3D情報を捨てる。
この問題に対処するために,人間の画像アニメーションに生の3Dモーションシーケンスを直接モデル化する最初のフレームワークであるMTVCrafter(Motion Tokenization Video Crafter)を提案する。
具体的には,3次元モーションシーケンスを4次元モーショントークンに量子化する4DMoT (4D Motion tokenizer) を提案する。
2Dレンダリングされたポーズ画像と比較して、4Dモーショントークンはより堅牢な時空間キューを提供し、ポーズ画像とキャラクタ間の厳密なピクセルレベルのアライメントを回避し、より柔軟でゆがみのある制御を可能にする。
次に、MV-DiT(Motion-aware Video DiT)を紹介する。
MV-DiTは、4次元位置符号化によるユニークな動きの注意を設計することにより、複雑な3次元世界における人間の画像アニメーションのための4次元コンパクトで表現力のあるコンテキストとして、動きのトークンを効果的に活用することができる。
したがって、この分野において重要な一歩を踏み出し、ポーズ誘導された人間のビデオ生成の新しい方向を開くことになる。
実験の結果、我々のMTVCrafterは6.98のFID-VIDで最先端の結果を得た。
堅牢なモーショントークンによってパワーアップされたMTVCrafterは、様々なスタイルやシナリオで様々なオープンワールドキャラクター(シングル/複数、フル/半ボディ)を一般化する。
私たちのビデオデモとコードは以下の通りです。
関連論文リスト
- Sketch2Anim: Towards Transferring Sketch Storyboards into 3D Animation [22.325990468075368]
アニメーターはストーリーボードの2Dスケッチを、トライアル・アンド・エラー・プロセスを通じて望ましい3Dアニメーションを作るための参考として利用する。
2Dストーリーボードのスケッチを直接3Dアニメーションに変換する自動手法には高い需要がある。
スケッチ制約理解とモーション生成のための2つの重要なモジュールからなるSketch2Animを提案する。
論文 参考訳(メタデータ) (2025-04-27T10:38:17Z) - In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。
入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:00:22Z) - Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - GenXD: Generating Any 3D and 4D Scenes [137.5455092319533]
本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査することを提案する。
すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。
論文 参考訳(メタデータ) (2024-11-04T17:45:44Z) - Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。