論文の概要: MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
- arxiv url: http://arxiv.org/abs/2512.21003v1
- Date: Wed, 24 Dec 2025 06:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.707661
- Title: MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
- Title(参考訳): MVInverse:秒間におけるフィードフォワード多視点逆レンダリング
- Authors: Xiangzuo Wu, Chengwei Ren, Jun Zhou, Xiu Li, Yuan Liu,
- Abstract要約: 多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。
既存のシングルビューアプローチは、しばしばクロスビュー関係を無視し、一貫性のない結果をもたらす。
本稿では,RGB画像から空間変化アルベド,金属,粗さ,拡散シェーディング,表面正規度を直接予測するフィードフォワード多視点逆レンダリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.94963757122156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view inverse rendering aims to recover geometry, materials, and illumination consistently across multiple viewpoints. When applied to multi-view images, existing single-view approaches often ignore cross-view relationships, leading to inconsistent results. In contrast, multi-view optimization methods rely on slow differentiable rendering and per-scene refinement, making them computationally expensive and hard to scale. To address these limitations, we introduce a feed-forward multi-view inverse rendering framework that directly predicts spatially varying albedo, metallic, roughness, diffuse shading, and surface normals from sequences of RGB images. By alternating attention across views, our model captures both intra-view long-range lighting interactions and inter-view material consistency, enabling coherent scene-level reasoning within a single forward pass. Due to the scarcity of real-world training data, models trained on existing synthetic datasets often struggle to generalize to real-world scenes. To overcome this limitation, we propose a consistency-based finetuning strategy that leverages unlabeled real-world videos to enhance both multi-view coherence and robustness under in-the-wild conditions. Extensive experiments on benchmark datasets demonstrate that our method achieves state-of-the-art performance in terms of multi-view consistency, material and normal estimation quality, and generalization to real-world imagery.
- Abstract(参考訳): 多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。
マルチビュー画像に適用する場合、既存のシングルビューアプローチは、しばしばクロスビュー関係を無視し、一貫性のない結果をもたらす。
対照的に、マルチビュー最適化手法は遅い微分可能レンダリングとシーンごとの洗練に依存しており、計算コストが高く、スケールが難しい。
これらの制約に対処するために、RGB画像のシーケンスから空間的に変化するアルベド、金属、粗さ、拡散シェーディング、表面の正規性を直接予測するフィードフォワード多視点逆レンダリングフレームワークを導入する。
ビュー間での注目の交互化により、ビュー内長距離照明相互作用とビュー間素材の整合性の両方をキャプチャし、単一のフォワードパス内でのコヒーレントなシーンレベルの推論を可能にする。
実世界のトレーニングデータが不足しているため、既存の合成データセットでトレーニングされたモデルは、実世界のシーンに一般化するのに苦労することが多い。
この制限を克服するために,非ラベル付き実世界のビデオを利用した一貫性に基づく微調整手法を提案し,マルチビューのコヒーレンスとロバストさを両立させる。
ベンチマークデータセットの大規模な実験により,マルチビューの一貫性,物質的および正規推定品質,実世界の画像への一般化などの観点から,最先端の性能を実現することが実証された。
関連論文リスト
- MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference [83.38607296779423]
より物理的な環境モデルを用いた多視点一貫した物質推定がガウススプラッティングによる正確な反射の学習の鍵となることを示す。
本手法は照明と幾何学の両方を忠実に復元し,新しいビュー合成における最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-10-13T13:29:20Z) - CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction [30.088316989385106]
カメラパイプラインは、露光調整、ホワイトバランス、色補正など、デバイス上の広範な処理を適用する。
外観の変化は複数ビューの一貫性に反し、新しいビュー合成を劣化させる。
多視点一貫した方法で測光変動を補正するために、空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。
論文 参考訳(メタデータ) (2025-07-21T16:03:58Z) - MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.46962637673285]
MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文 参考訳(メタデータ) (2025-05-27T17:53:02Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文 参考訳(メタデータ) (2024-08-13T08:04:23Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。