論文の概要: DVD: Discrete Voxel Diffusion for 3D Generation and Editing
- arxiv url: http://arxiv.org/abs/2605.07971v1
- Date: Fri, 08 May 2026 16:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.203597
- Title: DVD: Discrete Voxel Diffusion for 3D Generation and Editing
- Title(参考訳): DVD「Voxel Diffusion for 3D Generation and Editing」
- Authors: Zhengrui Xiang, Jiaqi Wu, Fupeng Sun, Heliang Zheng, Yingzhen Li,
- Abstract要約: 本稿では,SLatに基づく3次元生成パイプラインのスパースボクセルの生成,評価,編集を行うための離散拡散フレームワークを提案する。
ボクセル占有を独立変数として扱うことにより、DVDは連続的に離散的な閾値付けを避けることができる。
DVDは明示的な分類的モデリングを通じてより解釈可能な生成ダイナミクスを提供する。
- 参考スコア(独自算出の注目度): 21.494417703524537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Discrete Voxel Diffusion (DVD), a discrete diffusion framework to generate, assess, and edit sparse voxels for SLat (Structured LATent) based 3D generative pipelines. Although discrete diffusion has not generally displaced continuous diffusion in image-like generation, we show that it can be an effective first-stage prior for sparse voxel scaffolds. By treating voxel occupancy as a native discrete variable, DVD avoids continuous-to-discrete thresholding and provides a simple framework for voxel generation, uncertainty estimation, and editing. Beyond quality gains, DVD provides more interpretable generation dynamics through explicit categorical modeling. Furthermore, we leverage the predictive entropy as a robust uncertainty metric to identify ambiguous voxel regions and complicated samples, facilitating tasks such as data filtering and quality assessment. Finally, we propose a lightweight fine-tuning strategy using block-structured perturbation patterns. This approach empowers the model to inpaint and edit voxels within a single sampling round, requiring negligible auxiliary computation and no additional model evaluations.
- Abstract(参考訳): 本稿では,SLat(Structured LATent)に基づく3次元生成パイプラインのためのスパースボクセルの生成,評価,編集を行う離散拡散フレームワークであるDisdisrete Voxel Diffusion(DVD)を紹介する。
離散拡散はイメージライクな生成において連続拡散に置き換わってはいないが、スパース・ボクセルの足場において有効な第1段階であることを示す。
ボクセル占有をネイティブな離散変数として扱うことにより、DVDは連続的から離散的な閾値付けを回避し、ボクセル生成、不確実性推定、編集のための簡単なフレームワークを提供する。
品質向上以外にも、DVDは明示的なカテゴリーモデリングを通じてより解釈可能な生成ダイナミクスを提供する。
さらに、予測エントロピーを頑健な不確実性指標として活用し、不明瞭なボクセル領域と複雑なサンプルを同定し、データフィルタリングや品質評価などのタスクを容易にする。
最後に,ブロック構造摂動パターンを用いた軽量な微調整手法を提案する。
このアプローチにより、モデルは単一のサンプリングラウンド内でボクセルを塗り替え、編集することができ、無視可能な補助計算が必要であり、追加のモデル評価は不要である。
関連論文リスト
- DVD: Deterministic Video Depth Estimation with Generative Priors [87.46576463137801]
DVDは、事前訓練されたビデオ拡散モデルをシングルパス深度回帰器に適応させる最初のフレームワークである。
DVDは、最先端のゼロショットのパフォーマンスをベンチマークで達成する。
私たちはパイプラインを完全にリリースし、オープンソースコミュニティに利益をもたらすために、SOTAビデオ深度推定のためのトレーニングスイート全体を提供しています。
論文 参考訳(メタデータ) (2026-03-12T17:58:06Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - Test-Time Anchoring for Discrete Diffusion Posterior Sampling [38.507644561076894]
後方サンプリングは、事前訓練された離散拡散基礎モデルにとって難しい問題である。
マスク拡散基礎モデルのためのAnchored Posterior Smpling (APS) を提案する。
本手法は線形および非線形逆問題に対する離散拡散サンプリング器の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-02T17:58:37Z) - Score Distillation of Flow Matching Models [67.86066177182046]
我々は、Score Identity Distillation (SiD) を事前訓練されたテキスト対画像フローマッチングモデルに拡張する。
SiDは、データフリーとデータアシストの両方の設定で、これらのモデルですぐに使える。
これは、スコア蒸留がテキストと画像のフローマッチングモデルに広く適用されるという最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T17:45:48Z) - Simple and Critical Iterative Denoising: A Recasting of Discrete Diffusion in Graph Generation [0.0]
中間ノイズ状態間の依存関係は、逆ノイズ化プロセス中にエラーの蓄積と伝播を引き起こす。
本稿では, 離散拡散を単純化し, 問題を回避し, 簡易反復分解という新しい枠組みを提案する。
実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-27T15:08:58Z) - Interleaved Gibbs Diffusion: Generating Discrete-Continuous Data with Implicit Constraints [30.624303845550575]
Interleaved Gibbs Diffusion (IGD)は、離散連続データのための新しい生成モデリングフレームワークである。
IGDは離散時間ギブスサンプリング型マルコフ連鎖を離散連続生成の場合に一般化する。
ドメイン固有の帰納バイアスに頼ることなく、最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-02-19T05:51:24Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。