論文の概要: Evaluating Latent Generative Paradigms for High-Fidelity 3D Shape Completion from a Single Depth Image
- arxiv url: http://arxiv.org/abs/2511.11074v1
- Date: Fri, 14 Nov 2025 08:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.504238
- Title: Evaluating Latent Generative Paradigms for High-Fidelity 3D Shape Completion from a Single Depth Image
- Title(参考訳): 単一深度画像からの高忠実度3次元形状補完のための潜在生成パラダイムの評価
- Authors: Matthias Humt, Ulrich Hillenbrand, Rudolph Triebel,
- Abstract要約: 拡散確率モデルと自己回帰因果変換の2つの有望な生成モデルを比較した。
連続潜伏剤を用いた拡散モデルは判別モデルと自己回帰的アプローチの両方より優れていることを示す。
- 参考スコア(独自算出の注目度): 8.280737466900135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative models have seen significant adoption across a wide range of data modalities, including 3D data, a consensus on which model is best suited for which task has yet to be reached. Further, conditional information such as text and images to steer the generation process are frequently employed, whereas others, like partial 3D data, have not been thoroughly evaluated. In this work, we compare two of the most promising generative models--Denoising Diffusion Probabilistic Models and Autoregressive Causal Transformers--which we adapt for the tasks of generative shape modeling and completion. We conduct a thorough quantitative evaluation and comparison of both tasks, including a baseline discriminative model and an extensive ablation study. Our results show that (1) the diffusion model with continuous latents outperforms both the discriminative model and the autoregressive approach and delivers state-of-the-art performance on multi-modal shape completion from a single, noisy depth image under realistic conditions and (2) when compared on the same discrete latent space, the autoregressive model can match or exceed diffusion performance on these tasks.
- Abstract(参考訳): 生成モデルは3Dデータを含む幅広いデータモダリティで顕著に採用されているが、どのモデルがどのタスクに到達していないかについてのコンセンサスがある。
さらに、生成過程を操るテキストや画像などの条件情報も頻繁に採用されているが、部分的な3Dデータのような条件情報も十分に評価されていない。
本研究では,2つの有望な生成モデル – 拡散確率モデルと自己回帰因果変換器 – を比較する。
我々は,ベースライン識別モデルと広範囲なアブレーション研究を含む,両タスクの徹底的な定量的評価と比較を行う。
以上の結果から,(1)連続潜時空間の拡散モデルは,判別モデルと自己回帰的アプローチの両方より優れており,また,現実的な条件下ではノイズの多い1つの深度画像から,複数モーダル形状の完了に対する最先端性能を実現し,(2)同じ離散潜時空間上での自己回帰的モデルと比較すると,これらのタスクにおける拡散性能と一致または超え得ることがわかった。
関連論文リスト
- Discrete Diffusion Models for Language Generation [0.0]
本論文は、自然言語生成のための離散拡散モデルの実現可能性と性能について考察する。
我々は、生成性能を評価するためにBits Per Token(BPT)、Negative Log-Likelihood(NLL)、Perplexity(PPL)、Batch Processing Speedを使用します。
ARモデルは平均BPTが4.59で圧縮性能が向上するが、D3PMは処理速度が向上し、毎秒3.97バッチに達する。
論文 参考訳(メタデータ) (2025-07-02T23:43:02Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - [MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。
離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文 参考訳(メタデータ) (2024-12-09T18:59:56Z) - Discrete Modeling via Boundary Conditional Diffusion Processes [29.95155303262501]
従来のアプローチは、離散データと継続的モデリングの相違に悩まされてきた。
本稿では,まず境界を先行分布として推定する2段階の前進過程を提案する。
次に前方軌道を再スケールして境界条件拡散モデルを構築する。
論文 参考訳(メタデータ) (2024-10-29T09:42:42Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Modeling Score Distributions and Continuous Covariates: A Bayesian
Approach [8.772459063453285]
連続共変量に対するマッチングと非マッチスコア分布の生成モデルを構築した。
混合モデルを用いて任意の分布と局所基底関数をキャプチャする。
提案手法の精度と有効性を示す3つの実験を行った。
論文 参考訳(メタデータ) (2020-09-21T02:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。