論文の概要: RGB$\leftrightarrow$X: Image decomposition and synthesis using material- and lighting-aware diffusion models
- arxiv url: http://arxiv.org/abs/2405.00666v1
- Date: Wed, 1 May 2024 17:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 14:57:49.249862
- Title: RGB$\leftrightarrow$X: Image decomposition and synthesis using material- and lighting-aware diffusion models
- Title(参考訳): RGB$\leftrightarrow$X:材料・光対応拡散モデルを用いた画像分解と合成
- Authors: Zheng Zeng, Valentin Deschaintre, Iliyan Georgiev, Yannick Hold-Geoffroy, Yiwei Hu, Fujun Luan, Ling-Qi Yan, Miloš Hašan,
- Abstract要約: 我々はRGB$rightarrow$Xの拡散モデルを導入し、照明を推定する。
また,本研究では,固有チャネルであるX$rightarrow$RGBのリアルな画像を合成する逆問題についても,拡散フレームワークで対処可能であることを示す。
我々のX$rightarrow$RGBモデルは、従来のレンダリングモデルと生成モデルの間の中間点を探索します。
- 参考スコア(独自算出の注目度): 26.138869180571213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The three areas of realistic forward rendering, per-pixel inverse rendering, and generative image synthesis may seem like separate and unrelated sub-fields of graphics and vision. However, recent work has demonstrated improved estimation of per-pixel intrinsic channels (albedo, roughness, metallicity) based on a diffusion architecture; we call this the RGB$\rightarrow$X problem. We further show that the reverse problem of synthesizing realistic images given intrinsic channels, X$\rightarrow$RGB, can also be addressed in a diffusion framework. Focusing on the image domain of interior scenes, we introduce an improved diffusion model for RGB$\rightarrow$X, which also estimates lighting, as well as the first diffusion X$\rightarrow$RGB model capable of synthesizing realistic images from (full or partial) intrinsic channels. Our X$\rightarrow$RGB model explores a middle ground between traditional rendering and generative models: we can specify only certain appearance properties that should be followed, and give freedom to the model to hallucinate a plausible version of the rest. This flexibility makes it possible to use a mix of heterogeneous training datasets, which differ in the available channels. We use multiple existing datasets and extend them with our own synthetic and real data, resulting in a model capable of extracting scene properties better than previous work and of generating highly realistic images of interior scenes.
- Abstract(参考訳): 現実的な前方レンダリング、ピクセルごとの逆レンダリング、生成的画像合成の3つの領域は、グラフィックと視覚の分離された非関連なサブフィールドのように見えるかもしれない。
しかし、近年の研究では拡散構造に基づく画素ごとの内在チャネル(アルベド、粗さ、金属性)の推定が改善していることが示されており、この問題を RGB$\rightarrow$X 問題と呼ぶ。
また,本研究では,固有チャネルであるX$\rightarrow$RGBの現実的な画像を合成する逆問題についても,拡散フレームワークで対処可能であることを示す。
内部シーンの画像領域に着目し,RGB$\rightarrow$Xの拡散モデルを導入し,照明を推定すると共に,(完全あるいは部分的な)内在チャネルからリアルなイメージを合成できる最初の拡散X$\rightarrow$RGBモデルを導入する。
我々のX$\rightarrow$RGBモデルは、従来のレンダリングモデルと生成モデルの間の中間点を探索する。
この柔軟性により、利用可能なチャネルが異なる異種トレーニングデータセットの混合の使用が可能になる。
複数の既存のデータセットを使用して、独自の合成および実データで拡張し、その結果、以前の作業よりも優れたシーン特性を抽出し、インテリアシーンの非常にリアルな画像を生成することができるモデルが得られる。
関連論文リスト
- FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - Taming Latent Diffusion Model for Neural Radiance Field Inpainting [63.297262813285265]
ニューラル・ラジアンス・フィールド(NeRF)は多視点画像からの3次元再構成の表現である。
本研究では,シーンごとのカスタマイズによる拡散モデルの傾向の緩和と,マスキングトレーニングによるテクスチャシフトの緩和を提案する。
我々のフレームワークは、様々な現実世界のシーンに最先端のNeRF塗装結果をもたらす。
論文 参考訳(メタデータ) (2024-04-15T17:59:57Z) - RGB-D Mapping and Tracking in a Plenoxel Radiance Field [5.239559610798646]
ビュー合成モデルと3次元再構成モデルの間に重要な相違点を示す。
また、一般的な外向きのシーンにおける正確な幾何学をモデル化するために、奥行きセンサが不可欠である理由についてもコメントする。
提案手法は,タスクのマッピングと追跡を両立させるとともに,競合するニューラルネットワークのアプローチよりも高速である。
論文 参考訳(メタデータ) (2023-07-07T06:05:32Z) - Relightify: Relightable 3D Faces from a Single Image via Diffusion
Models [86.3927548091627]
単一画像からの3次元顔BRDF再構成を高精度に行うために,拡散モデルを用いた最初のアプローチを提案する。
既存の手法とは対照的に,観測されたテクスチャを直接入力画像から取得することで,より忠実で一貫した推定が可能となる。
論文 参考訳(メタデータ) (2023-05-10T11:57:49Z) - DiffRF: Rendering-Guided 3D Radiance Field Diffusion [18.20324411024166]
本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。
2次元拡散モデルとは対照的に、我々のモデルは多視点一貫した先行情報を学習し、自由視点合成と正確な形状生成を可能にする。
論文 参考訳(メタデータ) (2022-12-02T14:37:20Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - IBL-NeRF: Image-Based Lighting Formulation of Neural Radiance Fields [12.056350920398396]
大規模屋内シーンのニューラル放射場(NeRF)を固有成分に分解するIRB-NeRFを提案する。
提案手法は,合成画像や固有成分に対して,優れた視覚的品質とマルチビューの整合性を継承する。
論文 参考訳(メタデータ) (2022-10-15T05:38:55Z) - Towards Real-World Video Deblurring by Exploring Blur Formation Process [53.91239555063343]
近年、深層学習に基づくアプローチは、ビデオデブロアリングタスクにおいて有望な成功を収めている。
既存の合成データセットで訓練されたモデルは、現実世界のぼやけたシナリオよりも一般化の問題に悩まされている。
本稿では, RAW-Blur と呼ばれる, ぼかし生成の手がかりを生かして, 現実的なぼかし合成パイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-28T09:24:52Z) - Realistic Blur Synthesis for Learning Image Deblurring [20.560205377203957]
より現実的なブラーを合成できる新しいブラー合成パイプラインを提案する。
また、実際のぼやけた画像とそれに対応するシャープな画像のシーケンスを含む新しいデータセットであるRSBlurを提案する。
論文 参考訳(メタデータ) (2022-02-17T17:14:48Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。