論文の概要: Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features
- arxiv url: http://arxiv.org/abs/2412.05826v1
- Date: Sun, 08 Dec 2024 06:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:10.294103
- Title: Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features
- Title(参考訳): Doppelgangers++: 幾何学的3D機能による視覚的曖昧化の改善
- Authors: Yuanbo Xiangli, Ruojin Cai, Hanyu Chen, Jeffrey Byrne, Noah Snavely,
- Abstract要約: ドッペルガンガー検出の精度を高め、3次元再構成精度を向上させる手法であるドッペルガンガース++を提案する。
私たちのコントリビューションには、ランドマークベースのデータセットを超えて拡大するために、日々のシーンからジオタグ付きイメージを組み込んだ、多様なトレーニングデータセットが含まれています。
Doppelgangers++は、標準的なSfMとMASt3R-SfMパイプラインにシームレスに統合され、さまざまなシーンで効率性と適応性を提供する。
- 参考スコア(独自算出の注目度): 30.225172410427447
- License:
- Abstract: Accurate 3D reconstruction is frequently hindered by visual aliasing, where visually similar but distinct surfaces (aka, doppelgangers), are incorrectly matched. These spurious matches distort the structure-from-motion (SfM) process, leading to misplaced model elements and reduced accuracy. Prior efforts addressed this with CNN classifiers trained on curated datasets, but these approaches struggle to generalize across diverse real-world scenes and can require extensive parameter tuning. In this work, we present Doppelgangers++, a method to enhance doppelganger detection and improve 3D reconstruction accuracy. Our contributions include a diversified training dataset that incorporates geo-tagged images from everyday scenes to expand robustness beyond landmark-based datasets. We further propose a Transformer-based classifier that leverages 3D-aware features from the MASt3R model, achieving superior precision and recall across both in-domain and out-of-domain tests. Doppelgangers++ integrates seamlessly into standard SfM and MASt3R-SfM pipelines, offering efficiency and adaptability across varied scenes. To evaluate SfM accuracy, we introduce an automated, geotag-based method for validating reconstructed models, eliminating the need for manual inspection. Through extensive experiments, we demonstrate that Doppelgangers++ significantly enhances pairwise visual disambiguation and improves 3D reconstruction quality in complex and diverse scenarios.
- Abstract(参考訳): 正確な3D再構成は、視覚的エイリアスによってしばしば妨げられ、視覚的に類似しているが異なる表面(別名、ドッペルガンガー)が正しく一致しない。
これらのスプリアスマッチは、SfM(Structure-from-motion)プロセスを歪ませ、間違ったモデル要素と精度を低下させる。
以前の取り組みでは、キュレートされたデータセットでトレーニングされたCNN分類器でこの問題に対処していたが、これらのアプローチは、さまざまな現実世界のシーンをまたいだ一般化に苦慮し、広範なパラメータチューニングを必要とした。
本研究では,ドッペルガンガー検出の高速化と3次元再構成精度の向上を目的としたドッペルガンガース++を提案する。
私たちのコントリビューションには、ランドマークベースのデータセットを超えて堅牢性を拡張するために、日々のシーンからジオタグ付きイメージを取り入れた、多様なトレーニングデータセットが含まれています。
さらに,MASt3Rモデルから3D認識機能を利用するTransformerベースの分類器を提案する。
Doppelgangers++は、標準的なSfMとMASt3R-SfMパイプラインにシームレスに統合され、さまざまなシーンで効率性と適応性を提供する。
SfMの精度を評価するため,手動検査の必要性をなくし,再構成されたモデルの検証を行うジオタグベースの自動手法を提案する。
広範にわたる実験により,Doppelgangers++は両面の視覚的曖昧さを著しく向上し,複雑かつ多様なシナリオにおける3次元再構成品質を向上することを示した。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Doppelgangers: Learning to Disambiguate Images of Similar Structures [76.61267007774089]
幻像マッチングは、人間が区別することは困難であり、3D再構成アルゴリズムに誤った結果をもたらす可能性がある。
本稿では,視覚的曖昧化に対する学習に基づくアプローチを提案し,イメージペア上でのバイナリ分類タスクとして定式化する。
本手法は, 難易度の高い画像の一致を識別し, SfMパイプラインに統合することにより, 正確な3次元再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-05T17:50:36Z) - Improving Feature-based Visual Localization by Geometry-Aided Matching [21.1967752160412]
外観情報と幾何学的文脈の両方を用いて2D-3D特徴マッチングを改善する新しい2D-3Dマッチング手法であるGeometry-Aided Matching (GAM)を導入する。
GAMは高精度を維持しながら2D-3Dマッチのリコールを大幅に強化することができる。
提案手法は,複数の視覚的ローカライゼーションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-11-16T07:02:12Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。