論文の概要: Rotate Your Character: Revisiting Video Diffusion Models for High-Quality 3D Character Generation
- arxiv url: http://arxiv.org/abs/2601.05722v1
- Date: Fri, 09 Jan 2026 11:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.952164
- Title: Rotate Your Character: Revisiting Video Diffusion Models for High-Quality 3D Character Generation
- Title(参考訳): キャラクタを回転させる:高画質3Dキャラクタ生成のためのビデオ拡散モデルの再検討
- Authors: Jin Wang, Jianxiang Lu, Comi Chen, Guangzheng Xu, Haoyu Yang, Peng Chen, Na Zhang, Yifan Xu, Longhuang Wu, Shuai Shao, Qinglin Lu, Ping Luo,
- Abstract要約: RCM(Rotate your Character Model)は、高品質なノベルビュー合成(NVS)と3Dキャラクタ生成に適した画像間拡散フレームワークである。
RCMは、新しいビュー合成と3D生成品質の両方において最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 31.395917803906652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality 3D characters from single images remains a significant challenge in digital content creation, particularly due to complex body poses and self-occlusion. In this paper, we present RCM (Rotate your Character Model), an advanced image-to-video diffusion framework tailored for high-quality novel view synthesis (NVS) and 3D character generation. Compared to existing diffusion-based approaches, RCM offers several key advantages: (1) transferring characters with any complex poses into a canonical pose, enabling consistent novel view synthesis across the entire viewing orbit, (2) high-resolution orbital video generation at 1024x1024 resolution, (3) controllable observation positions given different initial camera poses, and (4) multi-view conditioning supporting up to 4 input images, accommodating diverse user scenarios. Extensive experiments demonstrate that RCM outperforms state-of-the-art methods in both novel view synthesis and 3D generation quality.
- Abstract(参考訳): 単一画像から高品質な3D文字を生成することは、特に複雑なボディポーズと自己排他性のために、デジタルコンテンツ作成において重要な課題である。
本稿では,高品質なノベルビュー合成(NVS)と3Dキャラクタ生成に適した高度な画像間拡散フレームワークであるRCM(Rotate your Character Model)を提案する。
既存の拡散ベースのアプローチと比較して、RCMは、(1)複雑なポーズを持つ文字を標準的なポーズに転送し、観察軌道全体にわたって一貫した新しいビュー合成を可能にし、(2)高解像度の軌道映像を1024×1024解像度で生成し、(3)異なる初期カメラのポーズに与えられた制御可能な観測位置を制御し、(4)最大4つの入力画像をサポートするマルチビュー条件付けを行い、多様なユーザシナリオを調節する。
広汎な実験により、RCMは、新しいビュー合成と3D生成品質の両方において最先端の手法より優れていることが示された。
関連論文リスト
- CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。