論文の概要: VMatcher: State-Space Semi-Dense Local Feature Matching
- arxiv url: http://arxiv.org/abs/2507.23371v1
- Date: Thu, 31 Jul 2025 09:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.423179
- Title: VMatcher: State-Space Semi-Dense Local Feature Matching
- Title(参考訳): VMatcher: State-Space Semi-Dense Local Feature Matching
- Authors: Ali Youssef,
- Abstract要約: VMatcherは、イメージペア間のセミセンス機能マッチングのためのハイブリッドなMamba-Transformerネットワークである。
VMatcherは、Mambaの高効率なロングシーケンス処理とTransformerのアテンションメカニズムを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces VMatcher, a hybrid Mamba-Transformer network for semi-dense feature matching between image pairs. Learning-based feature matching methods, whether detector-based or detector-free, achieve state-of-the-art performance but depend heavily on the Transformer's attention mechanism, which, while effective, incurs high computational costs due to its quadratic complexity. In contrast, Mamba introduces a Selective State-Space Model (SSM) that achieves comparable or superior performance with linear complexity, offering significant efficiency gains. VMatcher leverages a hybrid approach, integrating Mamba's highly efficient long-sequence processing with the Transformer's attention mechanism. Multiple VMatcher configurations are proposed, including hierarchical architectures, demonstrating their effectiveness in setting new benchmarks efficiently while ensuring robustness and practicality for real-time applications where rapid inference is crucial. Source Code is available at: https://github.com/ayoussf/VMatcher
- Abstract(参考訳): 本稿では,画像ペア間の半深度特徴マッチングのためのハイブリッドMamba-TransformerネットワークであるVMatcherを紹介する。
学習に基づく特徴マッチング手法は、検出器ベースでも検出器フリーでも、最先端の性能を達成するが、トランスフォーマーの注意機構に大きく依存する。
対照的に、Mamba氏はSSM(Selective State-Space Model)を導入している。
VMatcherはハイブリッドアプローチを活用し、Mambaの高効率なロングシーケンス処理とTransformerのアテンションメカニズムを統合する。
階層型アーキテクチャを含む複数のVMatcher構成を提案し、高速推論が不可欠であるリアルタイムアプリケーションの堅牢性と実用性を確保しつつ、新しいベンチマークを効率的に設定する効果を実証している。
Source Code は https://github.com/ayoussf/VMatcher で利用可能である。
関連論文リスト
- JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba [8.878053726388075]
我々は,1つのGPU上に収束し,推論における性能・効率バランスを著しく向上する,超軽量なMambaベースのマッチング器JamMaを提案する。
特徴マッチングのためのMambaの可能性を解き明かすため,JEGOというスキャンマージ戦略を用いたJoint Mambaを提案し,(1)高周波数相互干渉を実現するために2つの画像のジョイントスキャン,(2)シーケンス長を削減するためのスキップステップによる効率的なスキャン,(3)グローバル受容場,(4)Omnidirectional特徴表現を実現する。
論文 参考訳(メタデータ) (2025-03-05T12:12:51Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficient Self-Supervised Video Hashing with Selective State Spaces [63.83300352372051]
自己監督型ビデオハッシュ(SSVH)は,ビデオインデックス作成と検索の実践的課題である。
本稿では,マンバをベースとしたビデオハッシュモデルであるS5VHを紹介する。
論文 参考訳(メタデータ) (2024-12-19T04:33:22Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Efficient LoFTR: Semi-Dense Local Feature Matching with Sparse-Like
Speed [42.861344584752]
従来は検出不要であったLoFTRは、大きな視点の変化とテクスチャ・ポーアのシナリオを扱う際、顕著な整合性を示した。
設計上の選択を再検討し、効率と精度の両面で複数の改善を導出する。
提案手法は,競争力のあるセミセンス・マーカと比較して高い精度を実現することができる。
論文 参考訳(メタデータ) (2024-03-07T18:58:40Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - ParaFormer: Parallel Attention Transformer for Efficient Feature
Matching [8.552303361149612]
本稿ではParaFormerという新しい並列アテンションモデルを提案する。
振幅と位相という概念を通じて特徴とキーポイントの位置を融合させ、平行して自己と横断性を統合する。
ホモグラフィー推定、ポーズ推定、画像マッチングなど様々な応用実験により、ParaFormerが最先端の性能を達成することを示す。
効率のよいParaFormer-Uは、既存のアテンションベースモデルの50%未満のFLOPで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-02T03:29:16Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z) - Efficient Linear Attention for Fast and Accurate Keypoint Matching [0.9699586426043882]
近年、トランスフォーマーはスパースマッチングにおける最先端の性能を提供し、高性能な3Dビジョンアプリケーションの実現に不可欠である。
しかし、これらの変換器は、注意機構の2次計算の複雑さのために効率を欠いている。
本稿では,グローバル情報とローカル情報の両方をスパースキーポイントから集約することで,高精度なアグリゲーションを実現する。
論文 参考訳(メタデータ) (2022-04-16T06:17:36Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。