論文の概要: TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization
- arxiv url: http://arxiv.org/abs/2204.00097v1
- Date: Thu, 31 Mar 2022 21:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:46:45.297988
- Title: TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization
- Title(参考訳): TransGeo: クロスビュー画像のジオローカライゼーションに必要なトランスフォーマー
- Authors: Sijie Zhu, Mubarak Shah, Chen Chen
- Abstract要約: クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 81.70547404891099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant CNN-based methods for cross-view image geo-localization rely on
polar transform and fail to model global correlation. We propose a pure
transformer-based approach (TransGeo) to address these limitations from a
different perspective. TransGeo takes full advantage of the strengths of
transformer related to global information modeling and explicit position
information encoding. We further leverage the flexibility of transformer input
and propose an attention-guided non-uniform cropping method, so that
uninformative image patches are removed with negligible drop on performance to
reduce computation cost. The saved computation can be reallocated to increase
resolution only for informative patches, resulting in performance improvement
with no additional computation cost. This "attend and zoom-in" strategy is
highly similar to human behavior when observing images. Remarkably, TransGeo
achieves state-of-the-art results on both urban and rural datasets, with
significantly less computation cost than CNN-based methods. It does not rely on
polar transform and infers faster than CNN-based methods. Code is available at
https://github.com/Jeff-Zilence/TransGeo2022.
- Abstract(参考訳): クロスビュー画像の地理的局所化のための支配的なcnnベースの手法は極性変換に依存し、大域相関のモデル化に失敗する。
本稿では,これらの制約に異なる視点から対処する純粋トランスフォーマーベースアプローチ(TransGeo)を提案する。
TransGeoは、グローバルな情報モデリングと明示的な位置情報エンコーディングに関連するトランスフォーマーの強みをフル活用する。
我々はさらに、トランス入力の柔軟性を活用し、注意誘導型非一様収穫法を提案し、非形式的な画像パッチを性能低下により除去し、計算コストを低減させる。
保存された計算は、情報パッチのみの分解能を向上させるために再配置することができ、追加の計算コストなしで性能が向上する。
この"attend and zoom-in"戦略は、画像観察時の人間の行動と非常によく似ている。
注目すべきは、TransGeoが都市と農村の両方のデータセットで最先端の結果を達成することだ。
極性変換には依存せず、cnnベースの方法よりも高速に推論する。
コードはhttps://github.com/Jeff-Zilence/TransGeo2022で公開されている。
関連論文リスト
- GAReT: Cross-view Video Geolocalization with Adapters and Auto-Regressive Transformers [53.80009458891537]
クロスビュービデオのジオローカライゼーションは、ストリートビュービデオからGPSトラジェクトリを空中ビュー画像と整列させることを目的としている。
現在のCVGL法では、現実のシナリオでは一般的に欠落しているカメラとオドメトリーのデータを使用する。
本稿では,カメラやオドメトリーデータを必要としないCVGLのフルトランスフォーマ方式であるGAReTを提案する。
論文 参考訳(メタデータ) (2024-08-05T21:29:33Z) - ConvFormer: Combining CNN and Transformer for Medical Image Segmentation [17.88894109620463]
医用画像分割のための階層型CNNとTransformerハイブリッドアーキテクチャであるConvFormerを提案する。
ゼロからトレーニングされたConvFormerは、さまざまなCNNやTransformerベースのアーキテクチャより優れ、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-15T23:11:22Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。