論文の概要: Structural Energy Guidance for View-Consistent Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2605.19876v1
- Date: Tue, 19 May 2026 14:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.390533
- Title: Structural Energy Guidance for View-Consistent Text-to-3D Generation
- Title(参考訳): 持続的テキスト・ツー・3D生成のための構造エネルギーガイダンス
- Authors: Qing Zhang, Jinguang Tong, Jing Zhang, Jie Hong, Xuesong Li,
- Abstract要約: 本研究は,2次元拡散前の視点バイアスを主な原因として同定し,多視点整合性向上のための構造エネルギー誘導サンプリング(SEGS)を提案する。
SEGSは、U-Net特徴のPCA部分空間に構造エネルギーを構築し、その勾配をデノナイジング過程に注入する。
実験によると、SEGSは平均でJanusレートを約10%削減し、DreamFusion、Magic3D、LucidDreamerを含む複数のベースラインでView-CSスコアを改善している。
- 参考スコア(独自算出の注目度): 18.973527029488746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation based on diffusion models often suffers from the Janus problem, leading to inconsistent geometry across viewpoints. This work identifies viewpoint bias in 2D diffusion priors as the main cause and proposes Structural Energy-Guided Sampling (SEGS), a training-free and plug-and-play framework to improve multi-view consistency. SEGS constructs a structural energy in the PCA subspace of U-Net features and injects its gradient into the denoising process. It can be easily integrated into SDS/VSD pipelines without retraining. Experiments show that SEGS reduces the Janus Rate by about 10% on average and improves View-CS scores across multiple baselines, including DreamFusion, Magic3D, and LucidDreamer. This method effectively alleviates viewpoint artifacts while preserving appearance fidelity, providing a flexible solution for high-quality text-to-3D content generation.
- Abstract(参考訳): 拡散モデルに基づくテキスト・ツー・3D生成は、しばしばジャナス問題に悩まされ、視点をまたいだ不整合幾何学に繋がる。
本研究は,2次元拡散前の視点バイアスを主な原因として同定し,多視点整合性を改善するためのトレーニングフリーでプラグアンドプレイのフレームワークである構造エネルギー誘導サンプリング(SEGS)を提案する。
SEGSは、U-Net特徴のPCA部分空間に構造エネルギーを構築し、その勾配をデノナイジング過程に注入する。
SDS/VSDパイプラインに再トレーニングすることなく簡単に統合できる。
実験によると、SEGSは平均でJanusレートを約10%削減し、DreamFusion、Magic3D、LucidDreamerを含む複数のベースラインでView-CSスコアを改善している。
外観の忠実さを保ちながら、視点のアーティファクトを効果的に軽減し、高品質なテキストから3Dコンテンツ生成のための柔軟なソリューションを提供する。
関連論文リスト
- OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain [17.131480990824397]
画素ワイド情報ゲイン(EIG)を用いた3DGS拡散フレームワークを提案する。
EIGはコヒーレント制御可能なテキスト合成のための統一ポリシーとして機能する。
データセットを用いた実験により,NTA-oU,NTLI-oU,FIDにまたがるSOTAは6mのレーンシフトでも107.47のFIDを維持していることがわかった。
論文 参考訳(メタデータ) (2025-11-26T06:58:57Z) - LSS3D: Learnable Spatial Shifting for Consistent and High-Quality 3D Generation from Single-Image [12.683334603689502]
我々は,多視点不整合と非正面入力ビューを扱うために,学習可能な空間シフトを用いた高品質な画像から3次元画像へのアプローチ LSS3D を提案する。
具体的には、各ビューに学習可能な空間シフトパラメータを割り当て、再構成メッシュでガイドされた空間的に一貫したターゲットに対して各ビューを調整する。
提案手法は, よりフレキシブルな入力視点における幾何学的, テクスチャ的評価指標の双方において, 導出結果を一貫して達成する。
論文 参考訳(メタデータ) (2025-11-15T13:14:25Z) - Structural Energy-Guided Sampling for View-Consistent Text-to-3D [18.973527029488746]
テキスト・トゥ・3D生成はしばしばジャヌス問題に悩まされ、オブジェクトが他の角度から重複または歪んだ幾何学に崩壊する。
本研究では, 実時間で完全にマルチビューの整合性を実現する学習自由なプラグイン・アンド・プレイフレームワークSEGSを提案する。
論文 参考訳(メタデータ) (2025-08-23T06:26:04Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - Improving Viewpoint Consistency in 3D Generation via Structure Feature and CLIP Guidance [17.867010229092735]
現在の手法はしばしば幾何学的矛盾に悩まされ、一般にヤヌス問題と呼ばれる。
本稿では,拡散モデルにおけるジャナス問題の根本原因である視点生成バイアスを明らかにする。
本稿では,Attention and CLIP Guidance (ACG) 機構と呼ばれるチューニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-12-03T09:05:32Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。