論文の概要: IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering
in Indoor Scenes
- arxiv url: http://arxiv.org/abs/2206.08423v1
- Date: Thu, 16 Jun 2022 19:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 08:39:48.474515
- Title: IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering
in Indoor Scenes
- Title(参考訳): IRISformer:屋内シーンにおけるシングルイメージ逆レンダリングのための高精細ビジョントランスフォーマー
- Authors: Rui Zhu, Zhengqin Li, Janarbek Matai, Fatih Porikli, Manmohan
Chandraker
- Abstract要約: 我々は、高密度な視覚変換器であるIRISformerが、逆レンダリングに必要なシングルタスクとマルチタスクの推論の両方で優れていることを示す。
具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。
ベンチマークデータセットを用いた評価では、上記の各タスクについて最先端の結果が示され、オブジェクト挿入や物質編集などの応用を、制約のない1つの実画像で実現する。
- 参考スコア(独自算出の注目度): 99.76677232870192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor scenes exhibit significant appearance variations due to myriad
interactions between arbitrarily diverse object shapes, spatially-changing
materials, and complex lighting. Shadows, highlights, and inter-reflections
caused by visible and invisible light sources require reasoning about
long-range interactions for inverse rendering, which seeks to recover the
components of image formation, namely, shape, material, and lighting. In this
work, our intuition is that the long-range attention learned by transformer
architectures is ideally suited to solve longstanding challenges in
single-image inverse rendering. We demonstrate with a specific instantiation of
a dense vision transformer, IRISformer, that excels at both single-task and
multi-task reasoning required for inverse rendering. Specifically, we propose a
transformer architecture to simultaneously estimate depths, normals,
spatially-varying albedo, roughness and lighting from a single image of an
indoor scene. Our extensive evaluations on benchmark datasets demonstrate
state-of-the-art results on each of the above tasks, enabling applications like
object insertion and material editing in a single unconstrained real image,
with greater photorealism than prior works. Code and data are publicly released
at https://github.com/ViLab-UCSD/IRISformer.
- Abstract(参考訳): 室内のシーンは、任意に多様な物体形状、空間的に変化する材料、複雑な照明の間の無数の相互作用によって顕著な外観変化を示す。
可視光と見えない光源によって引き起こされる影、ハイライト、反射は、逆レンダリングのための長距離相互作用の推論を必要とし、画像形成の構成要素、すなわち形状、材料、照明の回復を目指す。
本研究では、トランスフォーマーアーキテクチャによって学習される長距離の注意は、単一画像逆レンダリングにおける長年の課題を解決するのに理想的である。
我々は、逆レンダリングに必要なシングルタスクおよびマルチタスク推論の両方に優れる高密度視覚変換器IRISformerの特定のインスタンス化を実演する。
具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。
ベンチマークデータセットに関する広範な評価は、上記のタスクのそれぞれについて最先端の結果を示し、オブジェクト挿入や素材編集といったアプリケーションを、以前の作業よりもフォトリアリズムの高い単一の実画像で実現します。
コードとデータはhttps://github.com/ViLab-UCSD/IRISformer.comで公開されている。
関連論文リスト
- Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文 参考訳(メタデータ) (2024-08-13T08:04:23Z) - SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild [76.21063993398451]
制約のない画像コレクションに基づくオブジェクトの逆レンダリングは、コンピュータビジョンとグラフィックスにおける長年の課題である。
マルチレゾリューションハッシュ符号化に基づく暗黙の形状表現により,高速かつ堅牢な形状復元が可能となることを示す。
本手法はクラス非依存であり,3Dアセットを生成するために,オブジェクトのWildイメージコレクションで動作する。
論文 参考訳(メタデータ) (2024-01-18T18:01:19Z) - Neural Fields meet Explicit Geometric Representation for Inverse
Rendering of Urban Scenes [62.769186261245416]
本稿では,大都市におけるシーン形状,空間変化材料,HDR照明を,任意の深さで描画したRGB画像の集合から共同で再構成できる新しい逆レンダリングフレームワークを提案する。
具体的には、第1の光線を考慮に入れ、第2の光線をモデリングするために、明示的なメッシュ(基礎となるニューラルネットワークから再構成)を用いて、キャストシャドウのような高次照明効果を発生させる。
論文 参考訳(メタデータ) (2023-04-06T17:51:54Z) - NDJIR: Neural Direct and Joint Inverse Rendering for Geometry, Lights,
and Materials of Real Object [5.665283675533071]
我々はニューラルダイレクトおよびジョイントリバースレンダリング(NDJIR)を提案する。
提案手法は, 実際のオブジェクトに対して, フォトグラム設定で意味論的に分解することができる。
論文 参考訳(メタデータ) (2023-02-02T13:21:03Z) - Learning-based Inverse Rendering of Complex Indoor Scenes with
Differentiable Monte Carlo Raytracing [27.96634370355241]
本研究はモンテカルロ線トレーシングと重要サンプリングを組み合わせたエンドツーエンドの学習ベースの逆レンダリングフレームワークを提案する。
このフレームワークは1枚の画像を入力として、基礎となる幾何学、空間的に変化する照明、およびフォトリアリスティックな材料を共同で復元する。
論文 参考訳(メタデータ) (2022-11-06T03:34:26Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。
既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。
本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。