論文の概要: Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints
- arxiv url: http://arxiv.org/abs/2303.02885v2
- Date: Tue, 18 Jul 2023 03:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 19:06:23.550960
- Title: Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints
- Title(参考訳): 空間情報型キーポイントのカスケードキャプチャによる変圧器ベース画像マッチングの改善
- Authors: Chenjie Cao, Yanwei Fu
- Abstract要約: 変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。
我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。
CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 44.90917854990362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robust local image feature matching is a fundamental low-level
vision task, which has been widely explored in the past few years. Recently,
detector-free local feature matchers based on transformers have shown promising
results, which largely outperform pure Convolutional Neural Network (CNN) based
ones. But correlations produced by transformer-based methods are spatially
limited to the center of source views' coarse patches, because of the costly
attention learning. In this work, we rethink this issue and find that such
matching formulation degrades pose estimation, especially for low-resolution
images. So we propose a transformer-based cascade matching model -- Cascade
feature Matching TRansformer (CasMTR), to efficiently learn dense feature
correlations, which allows us to choose more reliable matching pairs for the
relative pose estimation. Instead of re-training a new detector, we use a
simple yet effective Non-Maximum Suppression (NMS) post-process to filter
keypoints through the confidence map, and largely improve the matching
precision. CasMTR achieves state-of-the-art performance in indoor and outdoor
pose estimation as well as visual localization. Moreover, thorough ablations
show the efficacy of the proposed components and techniques.
- Abstract(参考訳): 堅牢なローカルイメージ機能マッチングの学習は、ここ数年で広く研究されてきた、基本的な低レベルのビジョンタスクである。
近年,変圧器をベースとしたセンサレス局所特徴整形器が有望な結果を示し,CNN(Creative Convolutional Neural Network)をベースとした手法よりも優れていた。
しかし,トランスフォーマによる相関は,注意学習のコストがかかるため,ソースビューの粗いパッチの中心に空間的に制限されている。
本稿では,この問題を再考し,特に低解像度画像に対して,このような定式化が劣化すると推定する。
そこで本研究では,高次特徴相関を効率的に学習し,相対的なポーズ推定のためにより信頼度の高いマッチングペアを選択するための,変圧器を用いたカスケード特徴マッチングモデルcasmtrを提案する。
新しい検出器を再訓練する代わりに、単純で効果的な非最大抑圧(NMS)後処理を用いて、信頼性マップを通じてキーポイントをフィルタリングし、マッチング精度を大幅に改善する。
CasMTRは室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
さらに, 徹底的なアブレーションは, 提案する成分や手法の有効性を示す。
関連論文リスト
- Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Guide Local Feature Matching by Overlap Estimation [9.387323456222823]
OETRというTRansformerを用いた画像ペア上でのオーバーラップ推定手法を提案する。
OETRは、特徴相関の2段階のプロセスで重なり推定を行い、次いで重なり回帰を行う。
実験の結果,OETRは局所的特徴マッチング性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-02-18T07:11:36Z) - Automatic Detection of Rail Components via A Deep Convolutional
Transformer Network [7.557470133155959]
レール,クリップ,ボルトを含む多種鉄道部品を検出するための深層畳み込み変圧器ネットワーク方式を提案する。
提案手法は,アンカーボックス,アスペクト比,デフォルト座標,後処理などの事前設定を不要にすることで,検出パイプラインを単純化する。
総合的な計算結果から,提案手法は既存の最先端手法よりも大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-08-05T07:38:04Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。