論文の概要: MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation
- arxiv url: http://arxiv.org/abs/2408.06707v1
- Date: Tue, 13 Aug 2024 08:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:16:48.358418
- Title: MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation
- Title(参考訳): MAIR++: 暗黙の照明表現によるマルチビューアテンション逆レンダリングの改善
- Authors: JunYong Choi, SeokYeong Lee, Haesol Park, Seung-Won Jung, Ig-Jae Kim, Junghyun Cho,
- Abstract要約: マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
- 参考スコア(独自算出の注目度): 17.133440382384578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a scene-level inverse rendering framework that uses multi-view images to decompose the scene into geometry, SVBRDF, and 3D spatially-varying lighting. While multi-view images have been widely used for object-level inverse rendering, scene-level inverse rendering has primarily been studied using single-view images due to the lack of a dataset containing high dynamic range multi-view images with ground-truth geometry, material, and spatially-varying lighting. To improve the quality of scene-level inverse rendering, a novel framework called Multi-view Attention Inverse Rendering (MAIR) was recently introduced. MAIR performs scene-level multi-view inverse rendering by expanding the OpenRooms dataset, designing efficient pipelines to handle multi-view images, and splitting spatially-varying lighting. Although MAIR showed impressive results, its lighting representation is fixed to spherical Gaussians, which limits its ability to render images realistically. Consequently, MAIR cannot be directly used in applications such as material editing. Moreover, its multi-view aggregation networks have difficulties extracting rich features because they only focus on the mean and variance between multi-view features. In this paper, we propose its extended version, called MAIR++. MAIR++ addresses the aforementioned limitations by introducing an implicit lighting representation that accurately captures the lighting conditions of an image while facilitating realistic rendering. Furthermore, we design a directional attention-based multi-view aggregation network to infer more intricate relationships between views. Experimental results show that MAIR++ not only achieves better performance than MAIR and single-view-based methods, but also displays robust performance on unseen real-world scenes.
- Abstract(参考訳): 本稿では,多視点画像を用いてシーンを幾何学,SVBRDF,空間的に変化する光に分解するシーンレベルの逆レンダリングフレームワークを提案する。
多視点画像は、オブジェクトレベルの逆レンダリングに広く用いられているが、ランドスケープレベルの逆レンダリングは、地上形状、材質、空間的に変化する照明を含む高ダイナミックレンジのマルチビュー画像を含むデータセットが欠如していることから、主にシングルビュー画像を用いて研究されている。
シーンレベルの逆レンダリングの質を向上させるため,MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入された。
MAIRは、OpenRoomsデータセットを拡張し、マルチビューイメージを処理するための効率的なパイプラインを設計し、空間的に変化する照明を分割することで、シーンレベルのマルチビュー逆レンダリングを実行する。
MAIRは印象的な結果を示したが、その照明表現は球状ガウスに固定されており、現実的に画像をレンダリングする能力を制限する。
したがって、MAIRはマテリアル編集などのアプリケーションでは直接利用できない。
さらに,多視点アグリゲーションネットワークは,多視点特徴間の平均と分散にのみ焦点を絞っているため,リッチな特徴の抽出が困難である。
本稿では,その拡張版であるMAIR++を提案する。
MAIR++は、画像の照明条件を正確にキャプチャし、リアルなレンダリングを容易にする暗黙の照明表現を導入することで、上記の制限に対処する。
さらに、ビュー間のより複雑な関係を推測する指向性アテンションに基づく多視点アグリゲーションネットワークを設計する。
実験の結果、MAIR++はMAIRやシングルビューベースのメソッドよりも優れたパフォーマンスを達成するだけでなく、目に見えない現実世界のシーンで堅牢なパフォーマンスを示すことがわかった。
関連論文リスト
- View-consistent Object Removal in Radiance Fields [14.195400035176815]
レーダー場(RF)は3次元シーン表現にとって重要な技術である。
現在の方法はフレーム単位の2Dイメージの描画に依存しており、ビュー間の一貫性の維持に失敗することが多い。
単一参照画像のみの塗布を必要とすることで、一貫性を著しく向上する新しいRF編集パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-04T17:57:23Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - MAIR: Multi-view Attention Inverse Rendering with 3D Spatially-Varying
Lighting Estimation [13.325800282424598]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
実験の結果,提案手法はシングルビュー方式よりも優れた性能を示すが,実世界のシーンでは頑健な性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-22T08:07:28Z) - Learning-based Inverse Rendering of Complex Indoor Scenes with
Differentiable Monte Carlo Raytracing [27.96634370355241]
本研究はモンテカルロ線トレーシングと重要サンプリングを組み合わせたエンドツーエンドの学習ベースの逆レンダリングフレームワークを提案する。
このフレームワークは1枚の画像を入力として、基礎となる幾何学、空間的に変化する照明、およびフォトリアリスティックな材料を共同で復元する。
論文 参考訳(メタデータ) (2022-11-06T03:34:26Z) - IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering
in Indoor Scenes [99.76677232870192]
我々は、高密度な視覚変換器であるIRISformerが、逆レンダリングに必要なシングルタスクとマルチタスクの推論の両方で優れていることを示す。
具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。
ベンチマークデータセットを用いた評価では、上記の各タスクについて最先端の結果が示され、オブジェクト挿入や物質編集などの応用を、制約のない1つの実画像で実現する。
論文 参考訳(メタデータ) (2022-06-16T19:50:55Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。