論文の概要: MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
- arxiv url: http://arxiv.org/abs/2512.21003v2
- Date: Sun, 28 Dec 2025 15:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 13:10:31.582719
- Title: MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds
- Title(参考訳): MVInverse:秒間におけるフィードフォワード多視点逆レンダリング
- Authors: Xiangzuo Wu, Chengwei Ren, Jun Zhou, Xiu Li, Yuan Liu,
- Abstract要約: 多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。
本稿では,RGB画像から空間変化アルベド,金属,粗さ,拡散シェーディング,表面正規度を直接予測するフィードフォワード多視点逆レンダリングフレームワークを提案する。
提案手法は,多視点整合性,物質的および正規推定品質,実世界の画像への一般化という観点から,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 19.94963757122156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view inverse rendering aims to recover geometry, materials, and illumination consistently across multiple viewpoints. When applied to multi-view images, existing single-view approaches often ignore cross-view relationships, leading to inconsistent results. In contrast, multi-view optimization methods rely on slow differentiable rendering and per-scene refinement, making them computationally expensive and hard to scale. To address these limitations, we introduce a feed-forward multi-view inverse rendering framework that directly predicts spatially varying albedo, metallic, roughness, diffuse shading, and surface normals from sequences of RGB images. By alternating attention across views, our model captures both intra-view long-range lighting interactions and inter-view material consistency, enabling coherent scene-level reasoning within a single forward pass. Due to the scarcity of real-world training data, models trained on existing synthetic datasets often struggle to generalize to real-world scenes. To overcome this limitation, we propose a consistency-based finetuning strategy that leverages unlabeled real-world videos to enhance both multi-view coherence and robustness under in-the-wild conditions. Extensive experiments on benchmark datasets demonstrate that our method achieves state-of-the-art performance in terms of multi-view consistency, material and normal estimation quality, and generalization to real-world imagery. Project page: https://maddog241.github.io/mvinverse-page/
- Abstract(参考訳): 多視点逆レンダリングは、幾何、材料、照明を複数の視点で一貫して回復することを目的としている。
マルチビュー画像に適用する場合、既存のシングルビューアプローチは、しばしばクロスビュー関係を無視し、一貫性のない結果をもたらす。
対照的に、マルチビュー最適化手法は遅い微分可能レンダリングとシーンごとの洗練に依存しており、計算コストが高く、スケールが難しい。
これらの制約に対処するために、RGB画像のシーケンスから空間的に変化するアルベド、金属、粗さ、拡散シェーディング、表面の正規性を直接予測するフィードフォワード多視点逆レンダリングフレームワークを導入する。
ビュー間での注目の交互化により、ビュー内長距離照明相互作用とビュー間素材の整合性の両方をキャプチャし、単一のフォワードパス内でのコヒーレントなシーンレベルの推論を可能にする。
実世界のトレーニングデータが不足しているため、既存の合成データセットでトレーニングされたモデルは、実世界のシーンに一般化するのに苦労することが多い。
この制限を克服するために,非ラベル付き実世界のビデオを利用した一貫性に基づく微調整手法を提案し,マルチビューのコヒーレンスとロバストさを両立させる。
ベンチマークデータセットの大規模な実験により,マルチビューの一貫性,物質的および正規推定品質,実世界の画像への一般化などの観点から,最先端の性能を実現することが実証された。
プロジェクトページ: https://maddog241.github.io/mvinverse-page/
関連論文リスト
- FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。
提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文 参考訳(メタデータ) (2025-12-10T13:06:40Z) - MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference [83.38607296779423]
より物理的な環境モデルを用いた多視点一貫した物質推定がガウススプラッティングによる正確な反射の学習の鍵となることを示す。
本手法は照明と幾何学の両方を忠実に復元し,新しいビュー合成における最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-10-13T13:29:20Z) - CHROMA: Consistent Harmonization of Multi-View Appearance via Bilateral Grid Prediction [30.088316989385106]
カメラパイプラインは、露光調整、ホワイトバランス、色補正など、デバイス上の広範な処理を適用する。
外観の変化は複数ビューの一貫性に反し、新しいビュー合成を劣化させる。
多視点一貫した方法で測光変動を補正するために、空間適応型二元格子を予測できる一般化可能なフィードフォワード手法を提案する。
論文 参考訳(メタデータ) (2025-07-21T16:03:58Z) - Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。
広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。
一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2025-06-23T11:28:37Z) - MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.46962637673285]
MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文 参考訳(メタデータ) (2025-05-27T17:53:02Z) - Rendering Anywhere You See: Renderability Field-guided Gaussian Splatting [4.89907242398523]
本研究では、シーンビュー合成のためのレンダリング性フィールド誘導ガウススプラッティング(RF-GS)を提案する。
RF-GSはレンダリング性フィールドを通じて入力の不均一性を定量化し、擬似ビューサンプリングを視覚的整合性の向上に導く。
シミュレーションおよび実世界のデータを用いた実験により,本手法は従来のレンダリング安定性の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-27T14:41:01Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - MAIR++: Improving Multi-view Attention Inverse Rendering with Implicit Lighting Representation [17.133440382384578]
マルチビュー画像を用いてシーンを幾何学、SVBRDF、3次元空間的に変化する照明に分解するシーンレベルの逆レンダリングフレームワークを提案する。
MAIR(Multi-view Attention Inverse Rendering)と呼ばれる新しいフレームワークが最近導入され、シーンレベルの逆レンダリングの品質が向上した。
論文 参考訳(メタデータ) (2024-08-13T08:04:23Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。