論文の概要: ConsDreamer: Advancing Multi-View Consistency for Zero-Shot Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2504.02316v1
- Date: Thu, 03 Apr 2025 06:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:01.089616
- Title: ConsDreamer: Advancing Multi-View Consistency for Zero-Shot Text-to-3D Generation
- Title(参考訳): ConsDreamer:Zero-Shot Text-to-3D 生成のためのマルチビュー一貫性の向上
- Authors: Yuan Zhou, Shilong Jin, Litao Hua, Wanjun Lv, Haoran Duan, Jungong Han,
- Abstract要約: 本研究では, スコア蒸留プロセスにおける条件項と条件項の両方を精製することにより, ビューバイアスを緩和する新しいフレームワークであるConsDreamerを提案する。
ConsDreamerはテキストから3D生成におけるマルチフェイスのJanus問題を効果的に軽減し、視覚的品質と一貫性の両方において既存の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 46.64928459085584
- License:
- Abstract: Recent advances in zero-shot text-to-3D generation have revolutionized 3D content creation by enabling direct synthesis from textual descriptions. While state-of-the-art methods leverage 3D Gaussian Splatting with score distillation to enhance multi-view rendering through pre-trained text-to-image (T2I) models, they suffer from inherent view biases in T2I priors. These biases lead to inconsistent 3D generation, particularly manifesting as the multi-face Janus problem, where objects exhibit conflicting features across views. To address this fundamental challenge, we propose ConsDreamer, a novel framework that mitigates view bias by refining both the conditional and unconditional terms in the score distillation process: (1) a View Disentanglement Module (VDM) that eliminates viewpoint biases in conditional prompts by decoupling irrelevant view components and injecting precise camera parameters; and (2) a similarity-based partial order loss that enforces geometric consistency in the unconditional term by aligning cosine similarities with azimuth relationships. Extensive experiments demonstrate that ConsDreamer effectively mitigates the multi-face Janus problem in text-to-3D generation, outperforming existing methods in both visual quality and consistency.
- Abstract(参考訳): ゼロショットテキストから3D生成の最近の進歩は、テキスト記述からの直接合成を可能にすることで、3Dコンテンツ生成に革命をもたらした。
最先端の手法では3次元ガウススプラッティングとスコア蒸留を利用して、事前訓練されたテキスト・トゥ・イメージ(T2I)モデルによるマルチビューレンダリングを強化するが、それらはT2I先行モデルにおいて固有のビューバイアスに悩まされる。
これらのバイアスは不整合な3D生成をもたらし、特に多面的なジャヌス問題として現れ、オブジェクトはビュー全体で矛盾する特徴を示す。
この根本的な課題に対処するため,(1)無関係なビューコンポーネントを分離し,正確なカメラパラメータを注入することにより,条件付きプロンプトにおける視点バイアスを除去するビューディスタングルメントモジュール(VDM)、(2)コサイン類似性を方位関係と整合させることにより,非条件付き用語における幾何学的一貫性を強制する類似性に基づく部分順序損失を提案する。
大規模な実験により、ConsDreamerはテキストから3D生成におけるマルチフェイスのJanus問題を効果的に軽減し、視覚的品質と一貫性の両方において既存の手法より優れていることが示された。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - JointDreamer: Ensuring Geometry Consistency and Text Congruence in Text-to-3D Generation via Joint Score Distillation [38.32887919831611]
textbfJoint textbfScore textbfDistillation (JSD) を提案する。
JSDは、スコア蒸留サンプリングにおける3次元不整合問題を著しく軽減する。
筆者らのフレームワークであるJointDreamerは,テキストから3D生成の新しいベンチマークを構築している。
論文 参考訳(メタデータ) (2024-07-17T03:23:47Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - 3D Face Modeling via Weakly-supervised Disentanglement Network joint Identity-consistency Prior [62.80458034704989]
切り離された制御因子を特徴とする3次元顔モデルの生成は、コンピュータビジョンやコンピュータグラフィックスの多様な応用において大きな可能性を秘めている。
従来の3D顔モデリング手法は、これらの要因を効果的に解消するために特定のラベルを要求するため、課題に直面している。
本稿では,WSDF(Wakly Supervised Disentanglement Framework)を導入し,過度に拘束的なラベル付けを必要とせず,制御可能な3次元顔モデルのトレーニングを容易にする。
論文 参考訳(メタデータ) (2024-04-25T11:50:47Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Chasing Consistency in Text-to-3D Generation from a Single Image [35.60887743544786]
一つの画像から意味的・幾何学的・飽和的・持続的テキスト・ツー・3D生成のための3段階のフレームワークであるConsist3Dを提案する。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立してトークンを学習し、セマンティック一貫性とロバスト性を促進する。
幾何符号化段階は、新しい視点推定の下で包括的幾何学的制約と再構成的制約で別のトークンを学習し、過剰適合を減らし、幾何整合を奨励する。
論文 参考訳(メタデータ) (2023-09-07T09:50:48Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Debiasing Scores and Prompts of 2D Diffusion for View-consistent
Text-to-3D Generation [38.032010026146146]
ビュー一貫性テキスト・ツー・3D生成のためのスコア蒸留フレームワークをデバイアス化する2つの手法を提案する。
最も顕著な問題の1つは、オブジェクトの最も標準的なビューが他のビューに現れるJanus問題である。
提案手法は, 生成した3次元オブジェクトの現実性を著しく低減し, 2次元拡散モデルへの忠実さと, オーバーヘッドの少ない3次元一貫性との良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2023-03-27T17:31:13Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。