論文の概要: LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals
- arxiv url: http://arxiv.org/abs/2303.12779v3
- Date: Tue, 30 Jan 2024 18:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:53:41.579756
- Title: LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals
- Title(参考訳): LFM-3D:3次元信号を用いた広帯域特徴マッチング
- Authors: Arjun Karpur, Guilherme Perrotta, Ricardo Martin-Brualla, Howard Zhou,
Andr\'e Araujo
- Abstract要約: 学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 9.201550006194994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding localized correspondences across different images of the same object
is crucial to understand its geometry. In recent years, this problem has seen
remarkable progress with the advent of deep learning-based local image features
and learnable matchers. Still, learnable matchers often underperform when there
exists only small regions of co-visibility between image pairs (i.e. wide
camera baselines). To address this problem, we leverage recent progress in
coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable
Feature Matching framework that uses models based on graph neural networks and
enhances their capabilities by integrating noisy, estimated 3D signals to boost
correspondence estimation. When integrating 3D signals into the matcher model,
we show that a suitable positional encoding is critical to effectively make use
of the low-dimensional 3D information. We experiment with two different 3D
signals - normalized object coordinates and monocular depth estimates - and
evaluate our method on large-scale (synthetic and real) datasets containing
object-centric image pairs across wide baselines. We observe strong feature
matching improvements compared to 2D-only methods, with up to +6% total recall
and +28% precision at fixed recall. Additionally, we demonstrate that the
resulting improved correspondences lead to much higher relative posing accuracy
for in-the-wild image pairs - up to 8.6% compared to the 2D-only approach.
- Abstract(参考訳): 同じ物体の異なる画像にまたがる局所的な対応を見つけることは、その幾何学を理解する上で重要である。
近年,深層学習に基づく局所画像特徴と学習可能なマッチングの出現により,この問題は顕著に進展している。
それでも、学習可能なマッチングは、画像ペア(すなわちワイドカメラのベースライン)間の共有可視性の小さな領域のみが存在する場合、しばしば過小評価される。
この問題に対処するために,粗い単視点幾何推定手法の最近の進歩を利用する。
本稿では,グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワークであるlmm-3dを提案する。
マッチングモデルに3d信号を統合する場合,低次元の3d情報を有効に活用するには適切な位置符号化が不可欠であることを示す。
我々は、正規化された物体座標と単眼深度推定という2つの異なる3次元信号を実験し、広範囲のベースラインにオブジェクト中心の画像対を含む大規模(合成および実)データセット上で評価した。
また,2Dのみの手法と比較して,最大で6%,固定リコールで+28%の精度で特徴マッチングの改善が見られた。
さらに,得られた対応性の改善は,2Dのみのアプローチに比べて,画像対の相対的ポーズ精度を最大8.6%向上させることを示した。
関連論文リスト
- Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Improving Feature-based Visual Localization by Geometry-Aided Matching [21.1967752160412]
外観情報と幾何学的文脈の両方を用いて2D-3D特徴マッチングを改善する新しい2D-3Dマッチング手法であるGeometry-Aided Matching (GAM)を導入する。
GAMは高精度を維持しながら2D-3Dマッチのリコールを大幅に強化することができる。
提案手法は,複数の視覚的ローカライゼーションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-11-16T07:02:12Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。