論文の概要: A Streamlined Attention-Based Network for Descriptor Extraction
- arxiv url: http://arxiv.org/abs/2601.13126v1
- Date: Mon, 19 Jan 2026 15:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.943863
- Title: A Streamlined Attention-Based Network for Descriptor Extraction
- Title(参考訳): ディスクリプタ抽出のための合理化アテンションベースネットワーク
- Authors: Mattia D'Urso, Emanuele Santellani, Christian Sormann, Mattia Rossi, Andreas Kuhn, Friedrich Fraundorfer,
- Abstract要約: 本稿では,記述子抽出のためのストリーミングアテンションベースネットワークであるSANDescを紹介する。
我々は、畳み込みブロックアテンションモジュールと残路を改良したU-Netのようなアーキテクチャを採用する。
Sandescは、限られた計算資源で運用しながら、既存のディスクリプタよりも大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 12.162883531502173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SANDesc, a Streamlined Attention-Based Network for Descriptor extraction that aims to improve on existing architectures for keypoint description. Our descriptor network learns to compute descriptors that improve matching without modifying the underlying keypoint detector. We employ a revised U-Net-like architecture enhanced with Convolutional Block Attention Modules and residual paths, enabling effective local representation while maintaining computational efficiency. We refer to the building blocks of our model as Residual U-Net Blocks with Attention. The model is trained using a modified triplet loss in combination with a curriculum learning-inspired hard negative mining strategy, which improves training stability. Extensive experiments on HPatches, MegaDepth-1500, and the Image Matching Challenge 2021 show that training SANDesc on top of existing keypoint detectors leads to improved results on multiple matching tasks compared to the original keypoint descriptors. At the same time, SANDesc has a model complexity of just 2.4 million parameters. As a further contribution, we introduce a new urban dataset featuring 4K images and pre-calibrated intrinsics, designed to evaluate feature extractors. On this benchmark, SANDesc achieves substantial performance gains over the existing descriptors while operating with limited computational resources.
- Abstract(参考訳): SANDescは,キーポイント記述のための既存アーキテクチャの改善を目的とした,記述子抽出のためのストリーミングアテンションベースネットワークである。
我々のディスクリプタネットワークは、基礎となるキーポイント検出器を変更することなく、マッチングを改善するディスクリプタを計算することを学ぶ。
我々は,畳み込みブロックアテンションモジュールと残路を改良したU-Netのようなアーキテクチャを採用し,計算効率を維持しながら効率的な局所表現を実現する。
我々は、我々のモデルのビルディングブロックをResidual U-Net Blocks with Attentionと呼ぶ。
このモデルは、カリキュラムにインスパイアされたハードネガティブマイニング戦略と組み合わせて、修正三重項損失を用いて訓練され、トレーニング安定性が向上する。
HPatches、MegaDepth-1500、Image Matching Challenge 2021の大規模な実験では、既存のキーポイント検出器上でのSANDescのトレーニングにより、元のキーポイントディスクリプタと比較して複数のマッチングタスクの結果が改善された。
同時に、SANDescはたった2.4万のパラメータのモデル複雑性を持つ。
さらに,特徴抽出器の評価を目的とした,4K画像と事前校正型イントリンシクスを特徴とする新たな都市データセットを提案する。
このベンチマークでは、SANDescは、限られた計算資源で操作しながら、既存のディスクリプタよりも大幅な性能向上を実現している。
関連論文リスト
- Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Single image super-resolution based on trainable feature matching attention network [0.0]
畳み込みニューラルネットワーク(CNN)は画像超解法(SR)に広く利用されている
トレーニング可能な特徴マッチング(TFM)を導入し、CNNに明示的な特徴学習を導入し、その表現能力を増強する。
また,非局所演算の計算要求を軽減するため,SRNL (Same-size-divided Region-level Non-Local) という変種も提案する。
論文 参考訳(メタデータ) (2024-05-29T08:31:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - Improving accuracy and speeding up Document Image Classification through
parallel systems [4.102028235659611]
RVL-CDIPデータセットで、より軽量なモデルで以前の結果を改善することができることを示す。
画像入力のみを増強できるアンサンブルパイプラインを提案する。
最後に、PyTorchとDeep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。
論文 参考訳(メタデータ) (2020-06-16T13:36:07Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。