論文の概要: Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model
- arxiv url: http://arxiv.org/abs/2208.03987v1
- Date: Mon, 8 Aug 2022 09:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:32:29.806316
- Title: Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model
- Title(参考訳): リモートセンシング基礎モデルへのプレーンビジョントランスフォーマーの進歩
- Authors: Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao and
Liangpei Zhang
- Abstract要約: 約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 97.9548609175831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision foundation models have made significant progress in visual
tasks on natural images, where the vision transformers are the primary choice
for their good scalability and representation ability. However, the utilization
of large models in the remote sensing (RS) community remains under-explored
where existing models are still at small-scale, which limits the performance.
In this paper, we resort to plain vision transformers with about 100 million
parameters and make the first attempt to propose large vision models customized
for RS tasks and explore how such large models perform. Specifically, to handle
the large image size and objects of various orientations in RS images, we
propose a new rotated varied-size window attention to substitute the original
full attention in transformers, which could significantly reduce the
computational cost and memory footprint while learn better object
representation by extracting rich context from the generated diverse windows.
Experiments on detection tasks demonstrate the superiority of our model over
all state-of-the-art models, achieving 81.16\% mAP on the DOTA-V1.0 dataset.
The results of our models on downstream classification and segmentation tasks
also demonstrate competitive performance compared with the existing advanced
methods. Further experiments show the advantages of our models on computational
complexity and few-shot learning. The code and models will be released at
https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA
- Abstract(参考訳): 大規模な視覚基礎モデルでは、視覚変換器が優れたスケーラビリティと表現能力の主要な選択肢である自然画像の視覚タスクが大幅に進歩している。
しかしながら、リモートセンシング(rs)コミュニティにおける大規模モデルの利用は、既存のモデルがまだ小規模で、パフォーマンスが制限されるような、未検討のままである。
本稿では,約1億パラメータのプレーンビジョントランスフォーマを使用して,rsタスク用にカスタマイズされた大型ビジョンモデルの提案と,そのような大規模モデルの実行方法について検討する。
具体的には,rs画像における様々な方向のオブジェクトと大きな画像サイズを扱うために,トランスフォーマの本来の注意を置き換えるために,回転する可変サイズのウィンドウアテンションを提案し,生成した多様ウィンドウからリッチなコンテキストを抽出することで,計算コストとメモリフットプリントを大幅に削減する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16\% mAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
下流分類およびセグメント化タスクにおける本モデルの結果は,既存の高度な手法と比較して,競合性能を示す。
さらに,計算複雑性と数発学習におけるモデルの利点を示す実験を行った。
コードとモデルはhttps://github.com/ViTAE-Transformer/remote-Sensing-RVSAで公開される。
関連論文リスト
- Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Heterogeneous Generative Knowledge Distillation with Masked Image
Modeling [33.95780732124864]
Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。
我々は,MIMに基づくH-GKD (Heterogeneous Generative Knowledge Distillation) を開発した。
本手法は,異種教師モデルからデータの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。
論文 参考訳(メタデータ) (2023-09-18T08:30:55Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。
自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。
これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-13T17:59:19Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Multi-task pre-training of deep neural networks for digital pathology [8.74883469030132]
私たちはまず、多くのデジタル病理データセットを22の分類タスクと約900kの画像のプールに組み立て、変換しました。
特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善されるか、同等のパフォーマンスを提供するかを示す。
論文 参考訳(メタデータ) (2020-05-05T08:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。