論文の概要: MatchFormer: Interleaving Attention in Transformers for Feature Matching
- arxiv url: http://arxiv.org/abs/2203.09645v1
- Date: Thu, 17 Mar 2022 22:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:51:37.866406
- Title: MatchFormer: Interleaving Attention in Transformers for Feature Matching
- Title(参考訳): MatchFormer: 特徴マッチングのための変換器のインターリーブ注意
- Authors: Qing Wang, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen
- Abstract要約: そこで我々は,MatchFormerと呼ばれる新しい階層型抽出・整合変換器を提案する。
特徴抽出のための自己注意と特徴マッチングのための相互注意をインターリーブし、人間の直感的な抽出・マッチング方式を実現する。
この戦略のおかげで、MatchFormerは効率、堅牢性、精度のマルチウィンソリューションである。
- 参考スコア(独自算出の注目度): 31.175513306917654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local feature matching is a computationally intensive task at the subpixel
level. While detector-based methods coupled with feature descriptors struggle
in low-texture scenes, CNN-based methods with a sequential extract-to-match
pipeline, fail to make use of the matching capacity of the encoder and tend to
overburden the decoder for matching. In contrast, we propose a novel
hierarchical extract-and-match transformer, termed as MatchFormer. Inside each
stage of the hierarchical encoder, we interleave self-attention for feature
extraction and cross-attention for feature matching, enabling a human-intuitive
extract-and-match scheme. Such a match-aware encoder releases the overloaded
decoder and makes the model highly efficient. Further, combining self- and
cross-attention on multi-scale features in a hierarchical architecture improves
matching robustness, particularly in low-texture indoor scenes or with less
outdoor training data. Thanks to such a strategy, MatchFormer is a multi-win
solution in efficiency, robustness, and precision. Compared to the previous
best method in indoor pose estimation, our lite MatchFormer has only 45%
GFLOPs, yet achieves a +1.3% precision gain and a 41% running speed boost. The
large MatchFormer reaches state-of-the-art on four different benchmarks,
including indoor pose estimation (ScanNet), outdoor pose estimation
(MegaDepth), homography estimation and image matching (HPatch), and visual
localization (InLoc). Code will be made publicly available at
https://github.com/jamycheung/MatchFormer.
- Abstract(参考訳): 局所的特徴マッチングはサブピクセルレベルで計算集約的なタスクである。
特徴記述子と組み合わされた検出器ベースの手法は、低テクスチャシーンで苦労するが、CNNベースの手法はシーケンシャルな抽出・マッチングパイプラインを持ち、エンコーダのマッチング能力を利用しず、デコーダをオーバーバーする傾向がある。
対照的に,MatchFormerと呼ばれる新しい階層型抽出・マッチング変換器を提案する。
階層エンコーダの各ステージ内において,特徴抽出のための自己注意と特徴マッチングのための相互注意をインターリーブし,人間の直感的な抽出・マッチング方式を実現する。
このようなマッチアウェアエンコーダはオーバーロードされたデコーダを解放し、モデルを高効率にする。
さらに,階層的アーキテクチャにおけるマルチスケール機能に対する自己およびクロス・アテンションの組み合わせは,特に低テクストの屋内シーンやアウトドアトレーニングデータが少ない場合のロバスト性を向上させる。
この戦略のおかげで、MatchFormerは効率、堅牢性、精度のマルチウィンソリューションである。
従来の室内ポーズ推定法と比較して、我々の整合型MatchFormerは45%のGFLOPしか持たないが、+1.3%の精度向上と41%の速度向上を実現している。
大規模なMatchFormerは、屋内ポーズ推定(ScanNet)、屋外ポーズ推定(MegaDepth)、ホモグラフィ推定と画像マッチング(HPatch)、視覚的ローカライゼーション(InLoc)の4つの異なるベンチマークで最先端に達する。
コードはhttps://github.com/jamycheung/MatchFormer.comで公開される。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - Grounding Image Matching in 3D with MASt3R [8.14650201701567]
本稿では,トランスフォーマーをベースとした強力な3次元再構成フレームワークであるDUSt3Rによる3Dタスクのキャストマッチングを提案する。
我々は,DUSt3Rネットワークを高密度な局所的特徴を出力する新しいヘッドで拡張することを提案する。
提案手法はMASt3Rとよばれる手法で,複数のマッチングタスクにおいて技量を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-14T06:46:30Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - DeepMatcher: A Deep Transformer-based Network for Robust and Accurate
Local Feature Matching [9.662752427139496]
本研究では,検出器レス手法における局所的特徴マッチングの探索に基づくディープトランスフォーマーベースネットワークを提案する。
DeepMatcherは、より直感的でシンプルでマッシュアップな機能をキャプチャする。
我々は、DeepMatcherがいくつかのベンチマークで最先端の手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2023-01-08T07:15:09Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Adaptive Assignment for Geometry Aware Local Feature Matching [22.818457285745733]
検出不要な特徴マッチングアプローチは、その優れたパフォーマンスのおかげで、現在大きな注目を集めている。
本稿では,AdaMatcherについて紹介する。AdaMatcherは特徴相関と協調可視領域推定を,精巧な特徴相互作用モジュールを通じて実現する。
次に、AdaMatcherは、画像間のスケールを推定しながらパッチレベルのマッチングに適応的な割り当てを行い、最後に、スケールアライメントとサブピクセルレグレッションモジュールを通じて、コビジブルマッチングを洗練する。
論文 参考訳(メタデータ) (2022-07-18T08:22:18Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - DFM: A Performance Baseline for Deep Feature Matching [10.014010310188821]
提案手法では,事前学習したVGGアーキテクチャを特徴抽出器として使用し,マッチングを改善するために追加の訓練を必要としない。
提案アルゴリズムは,Hpatchesデータセット上で,平均マッチング精度(MMA)で0.57と0.80のスコアをそれぞれ1ピクセル,2ピクセルの閾値で達成する。
論文 参考訳(メタデータ) (2021-06-14T22:55:06Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。