Fugu-MT 論文翻訳(概要): Intrinsic Image Diffusion for Single-view Material Estimation

論文の概要: Intrinsic Image Diffusion for Single-view Material Estimation

arxiv url: http://arxiv.org/abs/2312.12274v1
Date: Tue, 19 Dec 2023 15:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:05:11.985881
Title: Intrinsic Image Diffusion for Single-view Material Estimation
Title（参考訳）: 単視点材料推定のための固有画像拡散
Authors: Peter Kocsis (1), Vincent Sitzmann (2), Matthias Nie{\ss}ner (1) ((1) Technical University of Munich, (2) MIT EECS)
Abstract要約: 室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。 1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。提案手法は,PSNRで1.5dB$,アルベド予測で45%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Intrinsic Image Diffusion, a generative model for appearance decomposition of indoor scenes. Given a single input view, we sample multiple possible material explanations represented as albedo, roughness, and metallic maps. Appearance decomposition poses a considerable challenge in computer vision due to the inherent ambiguity between lighting and material properties and the lack of real datasets. To address this issue, we advocate for a probabilistic formulation, where instead of attempting to directly predict the true material properties, we employ a conditional generative model to sample from the solution space. Furthermore, we show that utilizing the strong learned prior of recent diffusion models trained on large-scale real-world images can be adapted to material estimation and highly improves the generalization to real images. Our method produces significantly sharper, more consistent, and more detailed materials, outperforming state-of-the-art methods by $1.5dB$ on PSNR and by $45\%$ better FID score on albedo prediction. We demonstrate the effectiveness of our approach through experiments on both synthetic and real-world datasets.
Abstract（参考訳）: 室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。 1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。外観分解は、照明と材料特性のあいまいさと実際のデータセットの欠如により、コンピュータビジョンにおいて大きな課題となる。この問題に対処するために、我々は確率論的定式化を提唱し、真の物質特性を直接予測するのではなく、解空間からサンプルするために条件付き生成モデルを用いる。さらに, 大規模実世界画像にトレーニングされた拡散モデルに先行して, 強い学習値を用いることで, 物質推定に適応し, 実画像への一般化を高度に改善できることを示す。提案手法は,PSNRで1.5dB$,アルベド予測で45\%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。合成および実世界の両方のデータセットに対する実験を通して,本手法の有効性を実証する。

関連論文リスト

Ambient Diffusion Omni: Training Good Models with Bad Data [45.821861121026394]
拡散モデルの品質向上のために,低品質,合成,分布外画像の使い方を示す。我々は、利用可能なすべての画像から信号を取り出すことができる拡散モデルを訓練するための原則的なフレームワークであるAmbient Omniを提案する。
論文参考訳（メタデータ） (2025-06-10T22:37:39Z)
MaskTerial: A Foundation Model for Automated 2D Material Flake Detection [48.73213960205105]
MaskTerialと呼ばれる深層学習モデルを提案する。このモデルでは、インスタンスセグメンテーションネットワークを用いて、2D素材のフレークを確実に識別する。このモデルは、ラベルのないデータからリアルな顕微鏡画像を生成する合成データ生成装置を用いて、広範囲に事前訓練されている。六方晶窒化ホウ素などの低コントラスト材料の検出において,既存の技術よりも顕著な改善が認められた。
論文参考訳（メタデータ） (2024-12-12T15:01:39Z)
DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition [13.341996441742374]
DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するフレームワークである。本研究では,拡散合成画像上での人間のラベル付けを生かした,ループ内人間パイプラインを開発した。データセットとコードはリリースされます。
論文参考訳（メタデータ） (2024-06-12T03:40:17Z)
IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination [37.96484120807323]
本稿では,未知の静止照明条件下で撮影されたポーズ画像から対象物質を回収することを目的とする。我々は、最適化プロセスの正規化のための生成モデルを用いて、その材料を事前に学習する。実世界および合成データセットを用いた実験により,本手法が材料回収における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-04-17T17:45:08Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Alchemist: Parametric Control of Material Properties with Diffusion Models [51.63031820280475]
本手法は,フォトリアリズムで知られているテキスト・イメージ・モデルの生成先行に乗じる。我々は,NeRFの材料化へのモデルの適用の可能性を示す。
論文参考訳（メタデータ） (2023-12-05T18:58:26Z)
UMat: Uncertainty-Aware Single Image High Resolution Material Capture [2.416160525187799]
本研究では, 物体の単一拡散像から正規性, 特異性, 粗さを復元する学習手法を提案する。本手法は材料デジタル化における不確実性をモデル化する問題に最初に対処する手法である。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文参考訳（メタデータ） (2023-05-24T14:00:32Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
DIB-R++: Learning to Predict Lighting and Material with a Hybrid Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文参考訳（メタデータ） (2021-10-30T01:59:39Z)
Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。 CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文参考訳（メタデータ） (2021-02-24T02:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。