論文の概要: Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate
- arxiv url: http://arxiv.org/abs/2605.18754v1
- Date: Mon, 18 May 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.28925
- Title: Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate
- Title(参考訳): これらの視点は一つの場面にできるのか? 3次元基礎モデルが幻覚する際のマルチビュー3D整合性の評価
- Authors: Soumava Paul, Prakhar Kaushik, Alan Yuille,
- Abstract要約: マルチビュー3D評価は、得られた画像が1つの静的な3Dシーンの観察であると仮定する。
既存の参照ベースのメトリクスは、基礎的な真理を必要とするが、MEt3Rのような非真実なメトリクスは、学習された再構築バックボーンに依存している。
整合性信号としてマッチ、登録、高密度サポート、再構成障害を用いるCOLMAPベースのメトリクスを導入する。
- 参考スコア(独自算出の注目度): 8.440211083233528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiview 3D evaluation assumes that the images being scored are observations of one static 3D scene. This assumption can fail in NVS and sparse-view reconstruction: inputs or generated outputs may contain artifacts, outlier frames, repeated views, or noise, yet still receive high 3D consistency scores. Existing reference-based metrics require ground truth, while ground-truth-free metrics such as MEt3R depend on learned reconstruction backbones whose failure modes are poorly characterized. We study this reliability problem by comparing neural reconstruction priors with classical geometric verification. We introduce \benchmark, a controlled robustness benchmark for multiview 3D consistency, and a parametric family that decomposes neural metrics into backbone, residual, and aggregation components. This family recovers MEt3R and yields variants up to $3\times$ more robust. Our analysis shows that VGGT, MASt3R, DUSt3R, and Fast3R can hallucinate dense geometry and cross-view support for unrelated scenes, repeated images, and random noise. We introduce COLMAP-based metrics that use matches, registration, dense support, and reconstruction failure as failure-aware consistency signals. On real NVS outputs and a structured human study, these metrics achieve up to $4\times$ higher correlation with human judgments than MEt3R.
- Abstract(参考訳): マルチビュー3D評価は、得られた画像が1つの静的な3Dシーンの観察であると仮定する。
この仮定は、NVSとスパースビューの再構成で失敗する可能性がある:入力または生成された出力には、アーティファクト、アウトリーフレーム、繰り返しビュー、ノイズが含まれ、それでも高い3D一貫性スコアが与えられる。
既存の参照ベースのメトリクスは、基礎的な真理を必要とするが、MEt3Rのような非真理なメトリクスは、障害モードが不十分な学習された再構築バックボーンに依存している。
この信頼性問題を,古典的幾何的検証とニューラル再構成の先行点を比較して検討する。
マルチビュー3D一貫性のための制御された堅牢性ベンチマークである‘benchmark’と、ニューラルネットワークをバックボーン、残基、集約コンポーネントに分解するパラメトリックファミリを紹介した。
このファミリーはMEt3Rを回復し、より堅牢な3ドルまでのバリエーションを出力する。
解析の結果、VGGT、MASt3R、DUSt3R、Fast3Rは、無関係なシーン、繰り返し画像、ランダムノイズに対する濃密な幾何学とクロスビューサポートを幻覚できることがわかった。
整合性信号としてマッチ、登録、高密度サポート、再構成障害を用いるCOLMAPベースのメトリクスを導入する。
実際のNVS出力と構造化された人間の研究では、これらの測定値はMEt3Rよりも最大4\times$高い人間の判断に相関する。
関連論文リスト
- PoInit-of-View: Poisoning Initialization of Views Transfers Across Multiple 3D Reconstruction Systems [55.84012796735184]
近年,3次元再構築システムの入力ビューについて検討している。
本稿では,対向的摂動を最適化し,対面不整合を意図的に導入するPoInit-of-Viewを提案する。
実験により,多種多様な3次元再構成システムとデータセットに対するPoInit-of-Viewの有効性が示された。
論文 参考訳(メタデータ) (2026-04-17T00:48:12Z) - Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself [38.95274911975506]
Free Geometryは、フィードフォワードの3D再構成モデルが3D基底の真理なしにテスト時に自己進化することを可能にするフレームワークである。
当社のアプローチは、4つのベンチマークデータセットにまたがって、Depth Anything 3やVGGTといった最先端の基礎モデルを継続的に改善しています。
論文 参考訳(メタデータ) (2026-04-15T16:24:03Z) - Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations [98.66466590444553]
コスト制約のない多視点幾何アノテーションを使わずにFFRMをスクラッチからトレーニングするための弱教師付きパラダイムであるReliev3Rを提案する。
Reliev3Rのコアでは、多視点幾何整合性の監視を容易にするために、曖昧さを意識した相対深度損失と三角法に基づく再射損失を設計する。
論文 参考訳(メタデータ) (2026-04-01T06:46:54Z) - HAMSt3R: Human-Aware Multi-view Stereo 3D Reconstruction [15.368018463074058]
HAMSt3Rは、スパース・アンキャリブレーション画像からのヒトとシーンの3D再構成のためのMASt3Rの拡張である。
提案手法では,人間をセグメント化したり,DensePose経由での密接な通信を推定したり,人中心環境における深度を予測したりするために,追加のネットワークヘッドを組み込んだ。
論文 参考訳(メタデータ) (2025-08-22T14:43:18Z) - GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors [44.901133648775605]
GSFixerは、スパース入力から再構築された3DGS表現の品質を改善するために設計されたフレームワークである。
本モデルは,視覚幾何学基礎モデルから抽出した参照ビューの2次元意味的特徴と3次元幾何学的特徴を統合した。
3DGSアーティファクト復元評価のための適切なベンチマークが欠如していることを踏まえ,低品質な3DGSを用いてレンダリングされたアーティファクトフレームを含むDL3DV-Resを提案する。
論文 参考訳(メタデータ) (2025-08-13T09:56:28Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。