論文の概要: MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching
- arxiv url: http://arxiv.org/abs/2510.14260v1
- Date: Thu, 16 Oct 2025 03:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.700913
- Title: MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching
- Title(参考訳): MatchAttention: 高分解能クロスビューマッチングにおける相対的位置マッチング
- Authors: Tingman Yan, Tao Liu, Xilian Yang, Qunfei Zhao, Zeyang Xia,
- Abstract要約: クロスビューマッチングは、基本的にクロスアテンション機構によって達成される。
本稿では,相対的な位置と動的に一致する注意機構であるMatchAttentionを提案する。
提案したモデルは、KITTI 2012、KITTI 2015、ETH3D、Springフローデータセット上での最先端のパフォーマンスも達成している。
- 参考スコア(独自算出の注目度): 11.58359962687585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view matching is fundamentally achieved through cross-attention mechanisms. However, matching of high-resolution images remains challenging due to the quadratic complexity and lack of explicit matching constraints in the existing cross-attention. This paper proposes an attention mechanism, MatchAttention, that dynamically matches relative positions. The relative position determines the attention sampling center of the key-value pairs given a query. Continuous and differentiable sliding-window attention sampling is achieved by the proposed BilinearSoftmax. The relative positions are iteratively updated through residual connections across layers by embedding them into the feature channels. Since the relative position is exactly the learning target for cross-view matching, an efficient hierarchical cross-view decoder, MatchDecoder, is designed with MatchAttention as its core component. To handle cross-view occlusions, gated cross-MatchAttention and a consistency-constrained loss are proposed. These two components collectively mitigate the impact of occlusions in both forward and backward passes, allowing the model to focus more on learning matching relationships. When applied to stereo matching, MatchStereo-B ranked 1st in average error on the public Middlebury benchmark and requires only 29ms for KITTI-resolution inference. MatchStereo-T can process 4K UHD images in 0.1 seconds using only 3GB of GPU memory. The proposed models also achieve state-of-the-art performance on KITTI 2012, KITTI 2015, ETH3D, and Spring flow datasets. The combination of high accuracy and low computational complexity makes real-time, high-resolution, and high-accuracy cross-view matching possible. Code is available at https://github.com/TingmanYan/MatchAttention.
- Abstract(参考訳): クロスビューマッチングは、基本的にクロスアテンション機構によって達成される。
しかし,2次的複雑性と既存のクロスアテンションにおける明示的なマッチング制約の欠如により,高解像度画像のマッチングは依然として困難である。
本稿では,相対的な位置と動的に一致する注意機構であるMatchAttentionを提案する。
相対位置は、クエリが与えられたキー値対の注目サンプリングセンタを決定する。
提案したBilinearSoftmaxにより連続的かつ微分可能なスライディングウインドウ・アテンションサンプリングを実現する。
相対的な位置は、層をまたいだ残差接続を通じて、特徴チャネルに埋め込むことで、反復的に更新される。
相対位置はまさにクロスビューマッチングの学習対象であるため、効率的な階層型クロスビューデコーダであるMatchDecoderは、MatchAttentionをコアコンポーネントとして設計されている。
クロスビューオクルージョンを扱うために、ゲート型クロスマッチアテンションと一貫性に制約のある損失を提案する。
これら2つのコンポーネントは、前方と後方の両方のオクルージョンの影響を緩和し、モデルがマッチング関係の学習に集中できるようにする。
ステレオマッチングに適用した場合、MatchStereo-Bはパブリックミドルベリーベンチマークで平均誤差で1位となり、KITTI分解能推論には29msしか必要としない。
MatchStereo-Tは、わずか3GBのGPUメモリを使用して、4K UHD画像を0.1秒で処理できる。
提案したモデルは、KITTI 2012、KITTI 2015、ETH3D、Springフローデータセット上での最先端のパフォーマンスも達成している。
高精度と低計算複雑性の組み合わせにより、リアルタイム、高解像度、高精度のクロスビューマッチングが可能となる。
コードはhttps://github.com/TingmanYan/MatchAttention.comで入手できる。
関連論文リスト
- CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文 参考訳(メタデータ) (2025-03-31T10:17:01Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - RoMa: Robust Dense Feature Matching [17.015362716393216]
特徴マッチングは、3Dシーンの2つの画像間の対応を推定する重要なコンピュータビジョンタスクである。
基礎モデルであるDINOv2の凍結事前学習機能を利用するモデルを提案する。
頑健性をさらに向上するために, 整列型トランスフォーマーマッチングデコーダを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:04Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - IMP: Iterative Matching and Pose Estimation with Adaptive Pooling [34.36397639248686]
我々はEIMPと呼ばれるテキストbfefficient IMPを提案し、潜在的に一致しないキーポイントを動的に破棄する。
YFCC100m、Scannet、Aachen Day-Nightのデータセットに対する実験により、提案手法は精度と効率の点で従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-28T13:25:50Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。