論文の概要: ITS3D: Inference-Time Scaling for Text-Guided 3D Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.22456v1
- Date: Thu, 27 Nov 2025 13:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.588423
- Title: ITS3D: Inference-Time Scaling for Text-Guided 3D Diffusion Models
- Title(参考訳): ITS3D:テキスト誘導3次元拡散モデルの推論時間スケーリング
- Authors: Zhenglin Zhou, Fan Ma, Xiaobo Xia, Hehe Fan, Yi Yang, Tat-Seng Chua,
- Abstract要約: ITS3Dは、最も効果的なガウス雑音入力を特定するための最適化問題としてタスクを定式化するフレームワークである。
安定性, 効率, 探索能力を向上させるための3つの技術を紹介する。
実験により、ITS3Dはテキストから3D生成の品質を向上させることが示された。
- 参考スコア(独自算出の注目度): 88.04431808574581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore inference-time scaling in text-guided 3D diffusion models to enhance generative quality without additional training. To this end, we introduce ITS3D, a framework that formulates the task as an optimization problem to identify the most effective Gaussian noise input. The framework is driven by a verifier-guided search algorithm, where the search algorithm iteratively refines noise candidates based on verifier feedback. To address the inherent challenges of 3D generation, we introduce three techniques for improved stability, efficiency, and exploration capability. 1) Gaussian normalization is applied to stabilize the search process. It corrects distribution shifts when noise candidates deviate from a standard Gaussian distribution during iterative updates. 2) The high-dimensional nature of the 3D search space increases computational complexity. To mitigate this, a singular value decomposition-based compression technique is employed to reduce dimensionality while preserving effective search directions. 3) To further prevent convergence to suboptimal local minima, a singular space reset mechanism dynamically updates the search space based on diversity measures. Extensive experiments demonstrate that ITS3D enhances text-to-3D generation quality, which shows the potential of computationally efficient search methods in generative processes. The source code is available at https://github.com/ZhenglinZhou/ITS3D.
- Abstract(参考訳): テキスト誘導型3次元拡散モデルにおける推論時間スケーリングについて検討し,追加トレーニングを伴わずに生成品質を向上させる。
そこで本研究では,最も効果的なガウス雑音入力を特定するための最適化問題としてタスクを定式化するフレームワークであるITS3Dを紹介する。
このフレームワークは検証者誘導探索アルゴリズムによって駆動され、探索アルゴリズムは検証者フィードバックに基づいて雑音候補を反復的に洗練する。
3次元生成の課題に対処するため, 安定性, 効率, 探索能力を向上する3つの手法を導入する。
1) 探索過程の安定化にガウス正規化を適用する。
これは、ノイズ候補が反復的な更新中に標準ガウス分布から逸脱したときの分布シフトを補正する。
2) 3次元探索空間の高次元的性質は計算複雑性を増大させる。
これを軽減するために,有効探索方向を保ちながら次元性を低減するために特異値分解に基づく圧縮手法を用いる。
3) 最適な局所最小値への収束をさらに防止するために, 特異空間リセット機構は, 多様性測定に基づいて探索空間を動的に更新する。
大規模実験により, ITS3D はテキスト・ツー・3D 生成品質を向上し, 生成過程における計算効率の高い探索手法の可能性を示す。
ソースコードはhttps://github.com/ZhenglinZhou/ITS3Dで入手できる。
関連論文リスト
- TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming [10.73970270886881]
3次元ガウス拡散モデルの最近の進歩は、時間集約的な認知とポストデノゲーション処理に悩まされている。
我々は、$textbfT$rajectory $textbfR$eductionと$textbfI$nstance $textbfM$ask denoisingを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:49:09Z) - GaussianVAE: Adaptive Learning Dynamics of 3D Gaussians for High-Fidelity Super-Resolution [7.288410309484523]
本稿では,3次元ガウス散乱(3DGS)の分解能と幾何学的忠実度を,ネイティブトレーニングの分解能を超えて向上させる新しい手法を提案する。
私たちの研究は、この制限を軽量な生成モデルによって破り、最も必要な3Dガウスを予測し、洗練します。
論文 参考訳(メタデータ) (2025-06-09T16:13:12Z) - GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors [14.743494200205754]
低分解能入力ビューからの高分解能新規ビュー合成(HRNVS)は、高分解能データがないため難しい課題である。
従来の手法では、低解像度の入力ビューから高分解能ニューラルネットワーク(NeRF)を最適化するが、レンダリング速度は遅い。
本研究では,高速なレンダリング速度で高品質な画像を生成する能力により,3Dガウススティング(3DGS)に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T15:19:21Z) - R$^2$-Gaussian: Rectifying Radiative Gaussian Splatting for Tomographic Reconstruction [53.19869886963333]
3次元ガウススプラッティング(3DGS)は画像のレンダリングと表面再構成において有望な結果を示した。
本稿では,Sparse-viewトモグラフィ再構成のための3DGSベースのフレームワークであるR2$-Gaussianを紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:39:02Z) - DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation [55.661467968178066]
本稿では,DreamGaussianを提案する。DreamGaussianは,効率と品質を両立させる新しい3Dコンテンツ生成フレームワークである。
我々の重要な洞察は、UV空間におけるメッシュ抽出とテクスチャ改善を伴う3次元ガウススプラッティングモデルを設計することである。
ニューラル・ラジアンス・フィールドにおける占有プルーニングとは対照的に、3次元ガウスの進行的な密度化は3次元生成タスクにおいて著しく速く収束することを示した。
論文 参考訳(メタデータ) (2023-09-28T17:55:05Z) - Text-to-3D using Gaussian Splatting [18.163413810199234]
本稿では,最新の最先端表現であるガウススプラッティングをテキストから3D生成に適用する新しい手法であるGSGENを提案する。
GSGENは、高品質な3Dオブジェクトを生成し、ガウススティングの明示的な性質を活用することで既存の欠点に対処することを目的としている。
我々の手法は繊細な細部と正確な形状で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2023-09-28T16:44:31Z) - Generalization of pixel-wise phase estimation by CNN and improvement of
phase-unwrapping by MRF optimization for one-shot 3D scan [0.621405559652172]
シングルパターンプロジェクション(ワンショット3Dスキャン)を用いたアクティブステレオ技術は、産業や医療目的などから広く注目を集めている。
ワンショット3Dスキャンの深刻な欠点はスパース再構成である。
パターンが正規かつ周期的であれば,任意のタイプの静的パターンに適用可能なワンショットスキャンのための画素ワイズ手法を提案する。
論文 参考訳(メタデータ) (2023-09-26T10:45:04Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。