論文の概要: Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization
- arxiv url: http://arxiv.org/abs/2204.09967v1
- Date: Thu, 21 Apr 2022 08:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 20:44:56.365267
- Title: Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization
- Title(参考訳): クロスビュージオローカライゼーションのためのトランスフォーマー誘導畳み込みニューラルネットワーク
- Authors: Teng Wang and Shujuan Fan and Daikun Liu and Changyin Sun
- Abstract要約: 本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
- 参考スコア(独自算出の注目度): 20.435023745201878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ground-to-aerial geolocalization refers to localizing a ground-level query
image by matching it to a reference database of geo-tagged aerial imagery. This
is very challenging due to the huge perspective differences in visual
appearances and geometric configurations between these two views. In this work,
we propose a novel Transformer-guided convolutional neural network (TransGCNN)
architecture, which couples CNN-based local features with Transformer-based
global representations for enhanced representation learning. Specifically, our
TransGCNN consists of a CNN backbone extracting feature map from an input image
and a Transformer head modeling global context from the CNN map. In particular,
our Transformer head acts as a spatial-aware importance generator to select
salient CNN features as the final feature representation. Such a coupling
procedure allows us to leverage a lightweight Transformer network to greatly
enhance the discriminative capability of the embedded features. Furthermore, we
design a dual-branch Transformer head network to combine image features from
multi-scale windows in order to improve details of the global feature
representation. Extensive experiments on popular benchmark datasets demonstrate
that our model achieves top-1 accuracy of 94.12\% and 84.92\% on CVUSA and
CVACT_val, respectively, which outperforms the second-performing baseline with
less than 50% parameters and almost 2x higher frame rate, therefore achieving a
preferable accuracy-efficiency tradeoff.
- Abstract(参考訳): ground-to-aerial geolocalizationは、地理タグ付き空中画像の参照データベースとマッチングすることにより、地上レベルのクエリ画像をローカライズすることを指す。
この2つのビューの間に視覚的な外観と幾何学的構成の大きな違いがあるため、これは非常に難しい。
本研究では,cnnに基づく局所的特徴とトランスフォーマティブに基づくグローバル表現を結合した,トランスフォーマティブ誘導畳み込みニューラルネットワーク(transgcnn)アーキテクチャを提案する。
具体的には,入力画像から特徴マップを抽出するCNNバックボーンと,CNNマップからグローバルコンテキストをモデル化するTransformerヘッダで構成される。
特にトランスフォーマーヘッドは空間認識重要生成器として機能し、最終的な特徴表現として有能なCNN特徴を選択する。
このような結合処理により,軽量なトランスフォーマーネットワークを活用し,組込み機能の識別能力を大幅に向上させることができる。
さらに,マルチスケールウインドウの画像特徴を統合し,グローバル特徴表現の詳細を改善するために,デュアルブランチトランスヘッドネットワークを設計した。
人気のあるベンチマークデータセットに関する広範囲な実験により、cvusaとcvact_valでそれぞれ94.12\%と84.92\%のtop-1精度を達成し、50%未満のパラメータと約2倍のフレームレートで2番目にパフォーマンスの高いベースラインを上回っており、精度と効率のトレードオフが望ましいことが示された。
関連論文リスト
- Interaction-Guided Two-Branch Image Dehazing Network [1.26404863283601]
Image Dehazingは、汚れた画像からクリーンなイメージを復元することを目的としている。
CNNとTransformerは、局所的およびグローバルな特徴抽出において例外的な性能を示した。
本稿では,CNNとTransformerコンポーネントをインタラクティブにガイドする,新しいデュアルブランチ画像デハージングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T03:21:56Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。