論文の概要: Puzzle Similarity: A Perceptually-guided Cross-Reference Metric for Artifact Detection in 3D Scene Reconstructions
- arxiv url: http://arxiv.org/abs/2411.17489v2
- Date: Wed, 12 Mar 2025 09:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:37:49.602599
- Title: Puzzle Similarity: A Perceptually-guided Cross-Reference Metric for Artifact Detection in 3D Scene Reconstructions
- Title(参考訳): プラグル類似性:三次元シーン再構成における人工物検出のための知覚誘導クロスリファレンス指標
- Authors: Nicolai Hermann, Jorge Condor, Piotr Didyk,
- Abstract要約: 我々は,新しい視点でアーティファクトをローカライズするために,新しいクロスリファレンス指標であるPuzzle similarityを提案する。
提案手法は,人的評価に関連し,新しい視点における工芸品の最先端のローカライゼーションを実現する。
我々は新しいメトリクスを活用して、画像の自動復元、ガイド付き取得、スパース入力からの3D再構成などの応用を強化することができる。
- 参考スコア(独自算出の注目度): 6.735527828654709
- License:
- Abstract: Modern reconstruction techniques can effectively model complex 3D scenes from sparse 2D views. However, automatically assessing the quality of novel views and identifying artifacts is challenging due to the lack of ground truth images and the limitations of No-Reference image metrics in predicting reliable artifact maps. The absence of such metrics hinders the assessment of the quality of novel views and limits the adoption of post-processing techniques, such as inpainting, to enhance reconstruction quality. To tackle this, recent work has established a new category of metrics (Cross-Reference), predicting image quality solely by leveraging context from alternate viewpoint captures (arXiv:2404.14409). In this work, we propose a new Cross-Reference metric, Puzzle Similarity, which is designed to localize artifacts in novel views. Our approach utilizes image patch statistics from the input views to establish a scene-specific distribution, later used to identify poorly reconstructed regions in the novel views. Given the lack of good measures to evaluate Cross-Reference methods in the context of 3D reconstruction, we collected a novel human-labeled dataset of artifact and distortion maps in unseen reconstructed views. Through this dataset, we demonstrate that our method achieves state-of-the-art localization of artifacts in novel views, correlating with human assessment, even without aligned references. We can leverage our new metric to enhance applications like automatic image restoration, guided acquisition, or 3D reconstruction from sparse inputs. Find the project page at https://nihermann.github.io/puzzlesim/ .
- Abstract(参考訳): 現代の再構築技術は、スパース2Dビューから複雑な3Dシーンを効果的にモデル化することができる。
しかし,新しいビューの質を自動評価し,アーティファクトを識別することは,信頼度の高いアーティファクトマップの予測において,地上の真実画像の欠如とNo-Reference画像メトリクスの限界により困難である。
このような指標が存在しないことで、新しいビューの品質の評価が妨げられ、塗装などの後処理技術の採用が制限され、再構築品質が向上する。
これを解決するために、最近の研究は、異なる視点のキャプチャ(arXiv:2404.14409)からコンテキストを利用するだけで画像品質を予測する新しいカテゴリ(Cross-Reference)を確立した。
そこで本研究では,新しい視点でアーティファクトをローカライズする手法であるPuzzle similarityを提案する。
提案手法は,入力ビューからの画像パッチ統計を利用してシーン固有の分布を確立する。
3次元再構成の文脈において、クロスリファレンス手法を評価するための優れた尺度が欠如していることを踏まえ、我々は、目に見えない再構成ビューにおいて、新しい人間ラベル付きアーティファクトと歪みマップのデータセットを収集した。
このデータセットを用いて,本手法が新たな視点におけるアーティファクトの最先端のローカライズを実現することを実証した。
我々は新しいメトリクスを活用して、画像の自動復元、ガイド付き取得、スパース入力からの3D再構成などの応用を強化することができる。
プロジェクトページはhttps://nihermann.github.io/puzzlesim/ にある。
関連論文リスト
- Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks [9.388897214344572]
2次元画像からの3次元3次元再構成はコンピュータビジョンにおける活発な研究分野である。
伝統的にこの作業にはパラメトリック技術が用いられてきた。
近年の進歩は、学習ベースの方法にシフトしている。
論文 参考訳(メタデータ) (2024-08-29T11:16:34Z) - MaRINeR: Enhancing Novel Views by Matching Rendered Images with Nearby References [49.71130133080821]
MaRINeRは、近くのマッピング画像の情報を活用して、ターゲット視点のレンダリングを改善する方法である。
暗黙のシーン表現と暗黙のシーン表現の両方から、定量的な指標と定性的な例のレンダリングの改善を示す。
論文 参考訳(メタデータ) (2024-07-18T17:50:03Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - NeurAR: Neural Uncertainty for Autonomous 3D Reconstruction [64.36535692191343]
暗黙の神経表現はオフラインの3D再構成において魅力的な結果を示しており、オンラインSLAMシステムの可能性も最近示している。
本論文は,1)新しい表現に基づく視点計画の質を評価するための基準を求めること,2)手作りではなく,異なる場面に一般化可能なデータから基準を学習すること,の2つの課題に対処する。
本手法は, TSDFを用いた変形モデルやビュープランニングなしでの再構成モデルと比較した場合, レンダリングされた画像品質と再構成された3次元モデルの幾何学的品質について, 様々な指標について有意な改善を示す。
論文 参考訳(メタデータ) (2022-07-22T10:05:36Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction [57.805334118057665]
文献中の任意のブラックボックス方式のパイプラインに容易に組み込むことができる後処理メッシュ改善ステップであるREFINEを提案する。
テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。
論文 参考訳(メタデータ) (2021-08-23T03:28:47Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。