論文の概要: Structural Energy-Guided Sampling for View-Consistent Text-to-3D
- arxiv url: http://arxiv.org/abs/2508.16917v1
- Date: Sat, 23 Aug 2025 06:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.251331
- Title: Structural Energy-Guided Sampling for View-Consistent Text-to-3D
- Title(参考訳): ビュー一貫性テキスト・トゥ・3Dのための構造エネルギー誘導サンプリング
- Authors: Qing Zhang, Jinguang Tong, Jie Hong, Jing Zhang, Xuesong Li,
- Abstract要約: テキスト・トゥ・3D生成はしばしばジャヌス問題に悩まされ、オブジェクトが他の角度から重複または歪んだ幾何学に崩壊する。
本研究では, 実時間で完全にマルチビューの整合性を実現する学習自由なプラグイン・アンド・プレイフレームワークSEGSを提案する。
- 参考スコア(独自算出の注目度): 18.973527029488746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation often suffers from the Janus problem, where objects look correct from the front but collapse into duplicated or distorted geometry from other angles. We attribute this failure to viewpoint bias in 2D diffusion priors, which propagates into 3D optimization. To address this, we propose Structural Energy-Guided Sampling (SEGS), a training-free, plug-and-play framework that enforces multi-view consistency entirely at sampling time. SEGS defines a structural energy in a PCA subspace of intermediate U-Net features and injects its gradients into the denoising trajectory, steering geometry toward the intended viewpoint while preserving appearance fidelity. Integrated seamlessly into SDS/VSD pipelines, SEGS significantly reduces Janus artifacts, achieving improved geometric alignment and viewpoint consistency without retraining or weight modification.
- Abstract(参考訳): テキスト・トゥ・3D生成は、物体が前方から正しいように見えるが、他の角度から重複あるいは歪んだ幾何学に崩壊するというジャヌス問題に悩まされることが多い。
我々はこの失敗を2次元拡散前の視点バイアスとみなし、3次元最適化へと伝播する。
そこで本研究では,マルチビューの完全整合性を実現するトレーニングフリーなプラグイン・アンド・プレイフレームワークである構造エネルギーガイドサンプリング(SEGS)を提案する。
SEGSは、中間U-Net特徴のPCA部分空間における構造エネルギーを定義し、その勾配を認知軌道に注入し、外見の忠実さを保ちながら、意図された視点に向けて操舵幾何学を定めている。
SEGSはSDS/VSDパイプラインにシームレスに統合され、Janusアーティファクトを著しく削減し、再トレーニングや重量修正なしに幾何的アライメントと視点整合性の改善を実現した。
関連論文リスト
- ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting [63.138778159026934]
本稿では,ERGOと呼ばれる過度のリスク分解によって導かれる適応最適化フレームワークを提案する。
ERGOはビュー固有の過剰リスクを動的に推定し、最適化中の損失重みを適応的に調整する。
Google Scanned ObjectsデータセットとOmniObject3Dデータセットの実験は、既存の最先端メソッドよりもERGOの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-02-10T20:44:43Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - COREA: Coarse-to-Fine 3D Representation Alignment Between Relightable 3D Gaussians and SDF via Bidirectional 3D-to-3D Supervision [15.632917458525851]
我々は,3次元ガウシアンとSDF(Signed Distance Field)を共同で学習し,正確な幾何学的再構成と忠実なリライティングを行う最初の統一フレームワークであるCOREAを提案する。
標準ベンチマークの実験では、COREAは統一されたフレームワーク内での新規ビュー合成、メッシュ再構成、PBRにおいて優れた性能を達成している。
論文 参考訳(メタデータ) (2025-12-08T02:41:42Z) - FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain [17.131480990824397]
画素ワイド情報ゲイン(EIG)を用いた3DGS拡散フレームワークを提案する。
EIGはコヒーレント制御可能なテキスト合成のための統一ポリシーとして機能する。
データセットを用いた実験により,NTA-oU,NTLI-oU,FIDにまたがるSOTAは6mのレーンシフトでも107.47のFIDを維持していることがわかった。
論文 参考訳(メタデータ) (2025-11-26T06:58:57Z) - SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection [49.12928389918159]
既存の単分子3D検出器は典型的には、切り離された予測パラダイムを通じて、3D境界ボックスの顕著な非線形回帰をテームする。
本稿では2つの主成分を持つ新しい空間射影アライメント(SPAN)を提案する。
SPANは、予測された3次元境界ボックスと接地した3次元境界ボックスの間に明らかに大域的な空間的制約を課し、それによって非結合な特性回帰による空間的ドリフトを補正する。
3D-2Dプロジェクションアライメントは、投影された3Dボックスが、画像平面上の対応する2D検出バウンディングボックス内に密に整列していることを保証する。
論文 参考訳(メタデータ) (2025-11-10T04:48:48Z) - Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes [7.253732091582086]
VAD-GSは3DGSフレームワークで、挑戦的な都市景観の幾何学的復元に適したものだ。
本手法は, ボクセルに基づく可視性推論により, 信頼性の低い幾何学構造を同定する。
多様性を意識したビュー選択を通じて情報的支援ビューを選択し、パッチマッチングベースのステレオ再構築によって行方不明構造を復元する。
論文 参考訳(メタデータ) (2025-10-10T13:22:12Z) - Accurate and Complete Surface Reconstruction from 3D Gaussians via Direct SDF Learning [5.604709769018076]
3D Gaussian Splatting (3DGS) はフォトリアリスティック・ビュー・シンセサイザーの強力なパラダイムとして登場した。
3DGSパイプラインに直接サインドディスタンスフィールド(Signed Distance Field, SDF)学習を組み込む統合フレームワークであるDiGSを提案する。
DiGSは高い忠実度を維持しつつ,復元精度と完全性を常に向上することを示す。
論文 参考訳(メタデータ) (2025-09-09T08:17:46Z) - Diffusion-Guided Gaussian Splatting for Large-Scale Unconstrained 3D Reconstruction and Novel View Synthesis [22.767866875051013]
本稿では,現行手法の限界に対処する多視点拡散モデルを用いて,新しい3DGSフレームワークであるGS-Diffを提案する。
マルチビュー入力に条件付き擬似観測を生成することにより、制約の少ない3次元再構成問題をよく表されたものに変換する。
4つのベンチマークの実験では、GS-Diffは最先端のベースラインをかなりのマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-02T17:59:46Z) - StableGS: A Floater-Free Framework for 3D Gaussian Splatting [9.935869165752283]
3D Gaussian Splatting(3DGS)の復元は、その幾何学的および視覚的忠実さを低下させるスタバボーンフローター(stbborn floater)のアーティファクトに悩まされている。
最終的な外観レンダリングから幾何正規化を分離する新しいフレームワークであるStableGSを提案する。
複数のベンチマークの実験では、StableGSはフローターを除去するだけでなく、一般的なぼやけたアーチファクトのトレードオフも解決している。
論文 参考訳(メタデータ) (2025-03-24T09:02:51Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。