論文の概要: CharacterShot: Controllable and Consistent 4D Character Animation
- arxiv url: http://arxiv.org/abs/2508.07409v1
- Date: Sun, 10 Aug 2025 16:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.849284
- Title: CharacterShot: Controllable and Consistent 4D Character Animation
- Title(参考訳): キャラクタショット:コントロール可能で一貫性のある4Dキャラクタアニメーション
- Authors: Junyao Gao, Jiaxing Li, Wenran Liu, Yanhong Zeng, Fei Shen, Kai Chen, Yanan Sun, Cairong Zhao,
- Abstract要約: 制御可能で一貫した4Dキャラクタアニメーションフレームワークである textbfCharacterShot を提案する。
個々のデザイナーは、単一の参照文字画像と2Dポーズシーケンスから動的3D文字(つまり4Dキャラクターアニメーション)を作成することができる。
- 参考スコア(独自算出の注目度): 20.631610991598297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose \textbf{CharacterShot}, a controllable and consistent 4D character animation framework that enables any individual designer to create dynamic 3D characters (i.e., 4D character animation) from a single reference character image and a 2D pose sequence. We begin by pretraining a powerful 2D character animation model based on a cutting-edge DiT-based image-to-video model, which allows for any 2D pose sequnce as controllable signal. We then lift the animation model from 2D to 3D through introducing dual-attention module together with camera prior to generate multi-view videos with spatial-temporal and spatial-view consistency. Finally, we employ a novel neighbor-constrained 4D gaussian splatting optimization on these multi-view videos, resulting in continuous and stable 4D character representations. Moreover, to improve character-centric performance, we construct a large-scale dataset Character4D, containing 13,115 unique characters with diverse appearances and motions, rendered from multiple viewpoints. Extensive experiments on our newly constructed benchmark, CharacterBench, demonstrate that our approach outperforms current state-of-the-art methods. Code, models, and datasets will be publicly available at https://github.com/Jeoyal/CharacterShot.
- Abstract(参考訳): 本稿では,単一の参照キャラクタ画像と2Dポーズシーケンスから動的3Dキャラクタ(4Dキャラクタアニメーション)を作成可能な,制御可能で一貫した4Dキャラクタアニメーションフレームワークである \textbf{CharacterShot} を提案する。
まず,最先端のDit-to-Videoモデルに基づく強力な2Dキャラクタアニメーションモデルを事前学習し,任意の2Dポーズシーケンスを制御可能な信号として可能にする。
次に、2Dから3Dへのアニメーションモデルをカメラとともにデュアルアテンションモジュールを導入し、空間的・時間的・空間的整合性のあるマルチビュービデオを生成する。
最後に、これらの多視点ビデオに対して、隣り合わせの4Dガウススプラッティング最適化を新たに導入し、連続的かつ安定した4Dキャラクタ表現を実現する。
さらに、文字中心の性能を向上させるため、複数の視点から表現された13,115個のユニークな文字を含む大規模データセットキャラクタ4Dを構築した。
新たに構築したベンチマークである CharacterBench での大規模な実験により、我々のアプローチが現在の最先端手法より優れていることが示された。
コード、モデル、データセットはhttps://github.com/Jeoyal/CharacterShot.comで公開される。
関連論文リスト
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。
当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。
これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文 参考訳(メタデータ) (2026-01-08T17:28:52Z) - Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - 4-Doodle: Text to 3D Sketches that Move! [60.89021458068987]
4-Doodleは、テキストから動的3Dスケッチを生成するための、最初のトレーニング不要のフレームワークである。
提案手法は時間的にリアルかつ構造的に安定な3次元スケッチアニメーションを生成し,忠実度と可制御性の両方において既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-29T09:33:29Z) - FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image [41.598551483524666]
1枚の画像から高品質でアニマタブルな4Dアバターを生成するための新しいフレームワークを提案する。
本手法は,様々な視点や表現の整合性を維持しつつ,先行技術よりも優れた品質を実現する。
論文 参考訳(メタデータ) (2025-04-21T15:40:14Z) - Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [31.956858341885436]
Video4DGenは、単一または複数の生成されたビデオから4D表現を生成するのに優れている新しいフレームワークである。
Video4DGenは、仮想現実、アニメーションなどにおけるアプリケーションのための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-04-05T12:13:05Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。
本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T05:35:57Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。