論文の概要: Animus3D: Text-driven 3D Animation via Motion Score Distillation
- arxiv url: http://arxiv.org/abs/2512.12534v1
- Date: Sun, 14 Dec 2025 03:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.299675
- Title: Animus3D: Text-driven 3D Animation via Motion Score Distillation
- Title(参考訳): Animus3D:モーションスコア蒸留によるテキスト駆動3Dアニメーション
- Authors: Qi Sun, Can Wang, Jiaxiang Shang, Wensen Feng, Jing Liao,
- Abstract要約: Animus3Dはテキスト駆動の3Dアニメーションフレームワークで、静的な3Dアセットとテキストプロンプトが与えられたモーションフィールドを生成する。
Animus3Dは様々なテキストプロンプトから静的な3Dアセットをアンペアリングし、より実質的で詳細な動きを生み出す。
- 参考スコア(独自算出の注目度): 23.865982945398546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Animus3D, a text-driven 3D animation framework that generates motion field given a static 3D asset and text prompt. Previous methods mostly leverage the vanilla Score Distillation Sampling (SDS) objective to distill motion from pretrained text-to-video diffusion, leading to animations with minimal movement or noticeable jitter. To address this, our approach introduces a novel SDS alternative, Motion Score Distillation (MSD). Specifically, we introduce a LoRA-enhanced video diffusion model that defines a static source distribution rather than pure noise as in SDS, while another inversion-based noise estimation technique ensures appearance preservation when guiding motion. To further improve motion fidelity, we incorporate explicit temporal and spatial regularization terms that mitigate geometric distortions across time and space. Additionally, we propose a motion refinement module to upscale the temporal resolution and enhance fine-grained details, overcoming the fixed-resolution constraints of the underlying video model. Extensive experiments demonstrate that Animus3D successfully animates static 3D assets from diverse text prompts, generating significantly more substantial and detailed motion than state-of-the-art baselines while maintaining high visual integrity. Code will be released at https://qiisun.github.io/animus3d_page.
- Abstract(参考訳): 静的な3Dアセットとテキストプロンプトが与えられた動き場を生成するテキスト駆動3DアニメーションフレームワークAnimus3Dを提案する。
従来の方法は、主にバニラスコア蒸留サンプリング(SDS)の目的を利用して、事前訓練されたテキストとビデオの拡散から動きを抽出し、最小限の動きや目立ったジッタを持つアニメーションに繋がった。
そこで本研究では,新しいSDS代替品であるMotion Score Distillation (MSD)を提案する。
具体的には、SDSのように純粋なノイズではなく、静的な音源分布を定義するLoRA拡張ビデオ拡散モデルを導入する。
運動の忠実度をさらに向上するため、時間と空間の幾何学的歪みを軽減するための時間的・空間的規則化用語を具体化する。
さらに,映像モデルの固定解像度制約を克服し,時間分解能のアップスケールと細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部を細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部細部
広範囲にわたる実験により、Animus3Dは様々なテキストプロンプトから静的な3Dアセットを解き放つことに成功した。
コードはhttps://qiisun.github.io/animus3d_pageで公開される。
関連論文リスト
- Object-Aware 4D Human Motion Generation [20.338809521456298]
本研究では,3次元ガウス表現と移動拡散先行に基づくオブジェクト認識型4次元人体運動生成フレームワークを提案する。
我々の枠組みは3次元空間的文脈を尊重する自然的かつ物理的に妥当な人間の動きを生成する。
論文 参考訳(メタデータ) (2025-10-31T20:40:17Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [12.944411575346528]
ATOP(Articulate That Object Part)は、テキストプロンプトに規定された部分とその動きについて静的な3Dオブジェクトを記述するための、モーションパーソナライゼーションに基づく新規な数ショット方式である。
提案手法は,より高精度なリアルな動作サンプルを生成でき,より一般化可能な3次元動作予測を実現する。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise [31.533802484121182]
テキストプロンプトを条件に4D生成を誘導することで,3Dオブジェクトをアニメーション化するためのトレーニング不要な手法を提案する。
まず,3次元メッシュを物体の視覚特性を保存する4次元ニューラルラジアンス場(NeRF)に変換する。
そして,テキスト駆動画像拡散モデルを用いてオブジェクトをアニメーション化する。
論文 参考訳(メタデータ) (2024-12-29T10:12:01Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。
既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。
我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T15:30:38Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。