論文の概要: StableIntrinsic: Detail-preserving One-step Diffusion Model for Multi-view Material Estimation
- arxiv url: http://arxiv.org/abs/2508.19789v1
- Date: Wed, 27 Aug 2025 11:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.607514
- Title: StableIntrinsic: Detail-preserving One-step Diffusion Model for Multi-view Material Estimation
- Title(参考訳): 安定内在性:多視点材料推定のための詳細保存ワンステップ拡散モデル
- Authors: Xiuchao Wu, Pengfei Zhu, Jiangjing Lyu, Xinguo Liu, Jie Guo, Yanwen Guo, Weiwei Xu, Chengfei Lyu,
- Abstract要約: 本稿では,多視点材料推定のための一段階拡散モデルであるStableIntrinsicを紹介する。
一段階拡散における過度に滑らかな問題に対処するために、StableIntrinsicは画素空間の損失を適用している。
また,VAE符号化による詳細損失を排除するために,DIN(Detail Injection Network)を導入する。
- 参考スコア(独自算出の注目度): 36.79338202811421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering material information from images has been extensively studied in computer graphics and vision. Recent works in material estimation leverage diffusion model showing promising results. However, these diffusion-based methods adopt a multi-step denoising strategy, which is time-consuming for each estimation. Such stochastic inference also conflicts with the deterministic material estimation task, leading to a high variance estimated results. In this paper, we introduce StableIntrinsic, a one-step diffusion model for multi-view material estimation that can produce high-quality material parameters with low variance. To address the overly-smoothing problem in one-step diffusion, StableIntrinsic applies losses in pixel space, with each loss designed based on the properties of the material. Additionally, StableIntrinsic introduces a Detail Injection Network (DIN) to eliminate the detail loss caused by VAE encoding, while further enhancing the sharpness of material prediction results. The experimental results indicate that our method surpasses the current state-of-the-art techniques by achieving a $9.9\%$ improvement in the Peak Signal-to-Noise Ratio (PSNR) of albedo, and by reducing the Mean Square Error (MSE) for metallic and roughness by $44.4\%$ and $60.0\%$, respectively.
- Abstract(参考訳): 画像から物質情報を復元する手法はコンピュータグラフィックスや視覚学において広く研究されている。
材料推定における最近の研究は, 有望な結果を示す拡散モデルを活用している。
しかし、これらの拡散に基づく手法は、各推定に時間を要する多段階のデノベーション戦略を採用している。
このような確率的推論は、決定論的物質推定タスクと矛盾し、高い分散推定結果をもたらす。
本稿では,多視点材料推定のための一段階拡散モデルであるStableIntrinsicを導入する。
一段階拡散における過度に滑らかな問題に対処するために、StableIntrinsicは、材料の性質に基づいて各損失を設計し、ピクセル空間の損失を適用した。
さらに、StableIntrinsicは、DIN(Detail Injection Network)を導入し、VAE符号化による詳細損失を解消し、材料予測結果のシャープさをさらに強化する。
実験結果から,アルベドのピーク信号対雑音比(PSNR)を9.9 %,金属および粗さの平均角誤差(MSE)を4.4 %,60.0 %と下げることにより,現在の最先端技術を超えていることが示された。
関連論文リスト
- Score-based diffusion models for diffuse optical tomography with uncertainty quantification [0.8443238959374133]
本稿では,学習とモデルベースコンポーネントからなる混合スコアを構成することで,スコア関数の過度な適合を防止する新しい正規化手法を提案する。
実験により、データ駆動の事前分布は、古典的モデルに基づく推定と比較して、低分散の後方サンプルをもたらすことが示された。
論文 参考訳(メタデータ) (2026-02-03T12:14:07Z) - Estimating properties of a homogeneous bounded soil using machine learning models [0.0]
本研究は, 水分測定から土壌特性を推定することに焦点を当てた。
本研究では, 垂直浸透を規定する初期境界値問題を, 均質で有界な土壌プロファイルで解くことによって生成したシミュレーションデータについて考察する。
2出力回帰タスクとして定式化されるパラメータ識別問題に対処するため,様々な機械学習モデルについて検討する。
論文 参考訳(メタデータ) (2025-06-02T07:25:03Z) - Learning Diffusion Model from Noisy Measurement using Principled Expectation-Maximization Method [9.173055778539641]
本稿では,任意の破損型を持つ雑音データから拡散モデルを反復的に学習する,原則的予測最大化(EM)フレームワークを提案する。
筆者らはモンテカルロ法を用いて,ノイズ測定からクリーンな画像を正確に推定し,次いで再構成画像を用いて拡散モデルを訓練した。
論文 参考訳(メタデータ) (2024-10-15T03:54:59Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Intrinsic Image Diffusion for Indoor Single-view Material Estimation [55.276815106443976]
室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。
1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。
提案手法は,PSNRで1.5dB$,アルベド予測で45%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。
論文 参考訳(メタデータ) (2023-12-19T15:56:19Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。