論文の概要: ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
- arxiv url: http://arxiv.org/abs/2208.14201v1
- Date: Tue, 30 Aug 2022 12:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:07:56.220494
- Title: ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer
- Title(参考訳): ASpanFormer: アダプティブスパン変換器による非検出画像マッチング
- Authors: Hongkai Chen, Zixin Luo, Lei Zhou, Yurun Tian, Mingmin Zhen, Tian
Fang, David Mckinnon, Yanghai Tsin, Long Quan
- Abstract要約: ASpanFormerはトランスフォーマーベースのディテクターフリーのマーカで、階層的なアテンション構造の上に構築されている。
本稿では,自己適応的に注意範囲を調整できる新しい注意操作を提案する。
これらの方法により、長距離依存を維持できるだけでなく、高関連性の画素間で微妙な注意を喚起することができる。
- 参考スコア(独自算出の注目度): 33.603064903549985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating robust and reliable correspondences across images is a fundamental
task for a diversity of applications. To capture context at both global and
local granularity, we propose ASpanFormer, a Transformer-based detector-free
matcher that is built on hierarchical attention structure, adopting a novel
attention operation which is capable of adjusting attention span in a
self-adaptive manner. To achieve this goal, first, flow maps are regressed in
each cross attention phase to locate the center of search region. Next, a
sampling grid is generated around the center, whose size, instead of being
empirically configured as fixed, is adaptively computed from a pixel
uncertainty estimated along with the flow map. Finally, attention is computed
across two images within derived regions, referred to as attention span. By
these means, we are able to not only maintain long-range dependencies, but also
enable fine-grained attention among pixels of high relevance that compensates
essential locality and piece-wise smoothness in matching tasks.
State-of-the-art accuracy on a wide range of evaluation benchmarks validates
the strong matching capability of our method.
- Abstract(参考訳): 画像間で堅牢で信頼性の高い対応を生成することは、多様なアプリケーションにとって基本的な課題である。
グローバルおよび局所的な粒度で文脈を捉えるために,階層的注意構造に基づいて構築されたトランスベース検出器フリーマッチングである aspanformer を提案する。
この目的を達成するために、まず、各クロスアテンションフェーズにフローマップを回帰して検索領域の中心を特定する。
次に、フローマップと共に推定される画素不確かさから、そのサイズを固定として経験的に構成する代わりに、その中心付近にサンプリンググリッドを生成する。
最後に、アテンションスパンと呼ばれる、派生領域内の2つの画像間でアテンションが計算される。
これらの手段により、我々は長距離依存を維持できるだけでなく、マッチングタスクにおける本質的な局所性とピースワイドな滑らかさを補う高関連性の画素間できめ細かな注意を喚起することができる。
評価ベンチマークにおける最先端の精度は,提案手法の強いマッチング能力を検証する。
関連論文リスト
- Quantity-Aware Coarse-to-Fine Correspondence for Image-to-Point Cloud
Registration [4.954184310509112]
Image-to-point cloud registrationは、RGBイメージと参照ポイントクラウドの間の相対カメラのポーズを決定することを目的としている。
個々の点と画素とのマッチングは、モダリティギャップによって本質的に曖昧である。
本稿では,局所点集合と画素パッチ間の量認識対応を捉える枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:55:54Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints [44.90917854990362]
変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。
我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。
CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-03-06T04:32:34Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - Align Deep Features for Oriented Object Detection [40.28244152216309]
本稿では、FAM(Feature Alignment Module)とODM(Oriented Detection Module)の2つのモジュールからなる単発アライメントネットワーク(S$2$A-Net)を提案する。
FAMは、アンカー・リファインメント・ネットワークで高品質なアンカーを生成し、アンカーボックスに応じた畳み込み特徴と、新しいアライメント・コンボリューション・コンボリューションとを適応的に調整することができる。
ODMは、まず、向き情報を符号化するためにアクティブな回転フィルタを採用し、次に、分類スコアとローカライゼーション精度の不整合を軽減するために、向きに敏感で方向不変な特徴を生成する。
論文 参考訳(メタデータ) (2020-08-21T09:55:13Z) - Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive
Object Detector [95.51517606475376]
ドメイン適応オブジェクト検出器は、オブジェクトの外観、視点、背景のバリエーションを含む可能性のある、見えないドメインに適応することを目的としている。
本稿では,画素単位の目的性と中心性を予測することにより,各画素を考慮に入れたドメイン適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T17:57:03Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。