論文の概要: AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2511.11692v1
- Date: Wed, 12 Nov 2025 09:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.003333
- Title: AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation
- Title(参考訳): AnchorDS: 連続したテキストから3D生成のための動的ソース作成
- Authors: Jiayin Zhu, Linlin Yang, Yicong Li, Angela Yao,
- Abstract要約: この研究は、源動力学を無視すると、意味的手がかりを抑えるまたはマージする矛盾した軌跡が得られることを示している。
我々は、動的に変化するソース分布を固定されたターゲット分布にマッピングするものとして、テキストから3Dまでの最適化を再構成する。
AnchorDS(AnchorDS)は、画像の条件に応じた状態適応型ガイダンスを提供する、改良されたスコア蒸留機構である。
- 参考スコア(独自算出の注目度): 56.399153019429605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization-based text-to-3D methods distill guidance from 2D generative models via Score Distillation Sampling (SDS), but implicitly treat this guidance as static. This work shows that ignoring source dynamics yields inconsistent trajectories that suppress or merge semantic cues, leading to "semantic over-smoothing" artifacts. As such, we reformulate text-to-3D optimization as mapping a dynamically evolving source distribution to a fixed target distribution. We cast the problem into a dual-conditioned latent space, conditioned on both the text prompt and the intermediately rendered image. Given this joint setup, we observe that the image condition naturally anchors the current source distribution. Building on this insight, we introduce AnchorDS, an improved score distillation mechanism that provides state-anchored guidance with image conditions and stabilizes generation. We further penalize erroneous source estimates and design a lightweight filter strategy and fine-tuning strategy that refines the anchor with negligible overhead. AnchorDS produces finer-grained detail, more natural colours, and stronger semantic consistency, particularly for complex prompts, while maintaining efficiency. Extensive experiments show that our method surpasses previous methods in both quality and efficiency.
- Abstract(参考訳): SDS (Score Distillation Sampling) による2次元生成モデルからの誘導を最適化したテキスト・ツー・3D法で抽出するが、このガイダンスを静的として暗黙的に扱う。
この研究は、源動力学を無視すると意味的手がかりを抑える、またはマージする一貫性のない軌道が得られ、それによって「意味的過密」な成果物が生まれることを示している。
そこで本研究では,テキストから3Dへの最適化を,動的に変化するソース分布と固定されたターゲット分布とのマッピングとして再構成する。
我々は、テキストプロンプトと中間レンダリング画像の両方に条件付き、二重条件付き潜在空間に問題を配置した。
このジョイント設定を前提として、画像条件が現在のソース分布を自然にアンカーするのを観察する。
この知見に基づいて,画像条件による状態適応誘導と生成の安定化を実現する,改良されたスコア蒸留機構であるAnchorDSを紹介した。
さらに、過度なソース推定をペナルティ化し、過度なオーバーヘッドでアンカーを洗練させる軽量フィルタ戦略と微調整戦略を設計する。
AnchorDSは、特に複雑なプロンプトに対して、よりきめ細かいディテール、より自然な色、より強力なセマンティック一貫性を、効率を保ちながら生成する。
大規模な実験により,本手法は従来手法よりも品質と効率の両面で優れていることが示された。
関連論文リスト
- Walking the Schrödinger Bridge: A Direct Trajectory for Text-to-3D Generation [51.337622918786074]
本稿では,新しいテキストから3D生成フレームワークであるTray-Centric Distillation (TraCe)を紹介する。
TraCeは、最先端技術よりも優れた品質と忠実性を実現している。
論文 参考訳(メタデータ) (2025-11-06T09:21:57Z) - RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - DreamMapping: High-Fidelity Text-to-3D Generation via Variational Distribution Mapping [20.7584503748821]
SDS (Score Distillation Sampling) はテキストから3D生成の一般的な技術として登場し、テキストから2Dのガイダンスからビュー依存情報を蒸留することで3Dコンテンツ作成を可能にする。
我々は、SDSの徹底的な解析を行い、その定式化を洗練し、中心となる設計はレンダリングされた画像の分布をモデル化することである。
本稿では,分散に基づく生成の劣化事例として,画像の描画を考慮し,分散モデリングプロセスの迅速化を図る,変分分布マッピング (VDM) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-08T14:04:48Z) - VividDreamer: Towards High-Fidelity and Efficient Text-to-3D Generation [69.68568248073747]
拡散に基づく3次元生成タスクにおいて, ポーズ依存型連続蒸留サンプリング (PCDS) を提案する。
PCDSは拡散軌道内でポーズ依存整合関数を構築し、最小サンプリングステップで真の勾配を近似することができる。
そこで我々は,まず1ステップのPCDSを用いて3Dオブジェクトの基本構造を作成し,さらに徐々にPCDSのステップを拡大して細かな細部を生成する,粗大な最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:21:52Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。