論文の概要: Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics
- arxiv url: http://arxiv.org/abs/2603.13859v1
- Date: Sat, 14 Mar 2026 09:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.452545
- Title: Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics
- Title(参考訳): Geo-ID: クロスビュー・コンセント・イントリンシクスのためのテスト時間幾何コンセンサス
- Authors: Alara Dirik, Stefanos Zafeiriou,
- Abstract要約: 内在的な画像分解は、画像からアルベド、粗さ、および金属性などの物理ベースのレンダリングパラメータを推定することを目的としている。
ビデオベースのモデルは、クロスフレームの一貫性を改善することができるが、高密度で順序付けられたシーケンスと相当な計算を必要とする。
クロスビュー一貫した分解を生成するために,未学習の単視点予測器を本質的に再利用する新しいテストタイムフレームワークであるGeo-IDを提案する。
- 参考スコア(独自算出の注目度): 37.614964138575935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic image decomposition aims to estimate physically based rendering (PBR) parameters such as albedo, roughness, and metallicity from images. While recent methods achieve strong single-view predictions, applying them independently to multiple views of the same scene often yields inconsistent estimates, limiting their use in downstream applications such as editable neural scenes and 3D reconstruction. Video-based models can improve cross-frame consistency but require dense, ordered sequences and substantial compute, limiting their applicability to sparse, unordered image collections. We propose Geo-ID, a novel test-time framework that repurposes pretrained single-view intrinsic predictors to produce cross-view consistent decompositions by coupling independent per-view predictions through sparse geometric correspondences that form uncertainty-aware consensus targets. Geo-ID is model-agnostic, requires no retraining or inverse rendering, and applies directly to off-the-shelf intrinsic predictors. Experiments on synthetic benchmarks and real-world scenes demonstrate substantial improvements in cross-view intrinsic consistency as the number of views increases, while maintaining comparable single-view decomposition performance. We further show that the resulting consistent intrinsics enable coherent appearance editing and relighting in downstream neural scene representations.
- Abstract(参考訳): 内在画像分解は、画像からアルベド、粗さ、および金属性などの物理ベースレンダリング(PBR)パラメータを推定することを目的としている。
最近の手法は強い単一ビュー予測を実現する一方で、同一シーンの複数のビューに独立して適用することで、編集可能なニューラルシーンや3D再構成などの下流アプリケーションでの使用を制限する不整合推定が得られることが多い。
ビデオベースのモデルは、クロスフレームの一貫性を改善することができるが、高密度で順序付けられたシーケンスと相当な計算を必要とする。
我々は,不確実性に認識されたコンセンサスターゲットを形成する疎幾何対応を通じて,独立したビュー毎の予測を結合することにより,事前学習した単一ビュー固有の予測器を再利用し,クロスビュー一貫した分解を生成する新しいテストタイムフレームワークGeo-IDを提案する。
Geo-IDはモデルに依存しず、トレーニングや逆レンダリングを必要としない。
合成ベンチマークと実世界のシーンの実験では、ビューの数が増加するにつれて、クロスビュー固有の一貫性が大幅に向上し、同等の単一ビュー分解性能を維持している。
さらに、結果として生じる一貫性のある内在性は、下流のニューラルシーン表現におけるコヒーレントな外観の編集とリライティングを可能にすることを示す。
関連論文リスト
- Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting [19.12278036176021]
SV-GSは変形モデルと物体の動きを同時に推定するフレームワークである。
提案手法は,PSNRの34%までのスパース観測下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2026-01-01T09:53:03Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。