論文の概要: Transformers For Recognition In Overhead Imagery: A Reality Check
- arxiv url: http://arxiv.org/abs/2210.12599v1
- Date: Sun, 23 Oct 2022 02:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:20:55.855230
- Title: Transformers For Recognition In Overhead Imagery: A Reality Check
- Title(参考訳): 頭上画像における認識のためのトランスフォーマー:現実チェック
- Authors: Francesco Luzi, Aneesh Gupta, Leslie Collins, Kyle Bradbury, Jordan
Malof
- Abstract要約: オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is evidence that transformers offer state-of-the-art recognition
performance on tasks involving overhead imagery (e.g., satellite imagery).
However, it is difficult to make unbiased empirical comparisons between
competing deep learning models, making it unclear whether, and to what extent,
transformer-based models are beneficial. In this paper we systematically
compare the impact of adding transformer structures into state-of-the-art
segmentation models for overhead imagery. Each model is given a similar budget
of free parameters, and their hyperparameters are optimized using Bayesian
Optimization with a fixed quantity of data and computation time. We conduct our
experiments with a large and diverse dataset comprising two large public
benchmarks: Inria and DeepGlobe. We perform additional ablation studies to
explore the impact of specific transformer-based modeling choices. Our results
suggest that transformers provide consistent, but modest, performance
improvements. We only observe this advantage however in hybrid models that
combine convolutional and transformer-based structures, while fully
transformer-based models achieve relatively poor performance.
- Abstract(参考訳): トランスフォーマーが頭上画像(衛星画像など)に関わるタスクにおいて最先端の認識性能を提供している証拠がある。
しかし、競合するディープラーニングモデル間の非バイアスな経験的比較を行うことは困難であり、トランスフォーマーベースのモデルがどのような程度で有用かは明らかでない。
本稿では,頭上画像のための最先端セグメンテーションモデルに変圧器構造を追加することの影響を体系的に比較する。
各モデルは、同様の自由パラメータの予算が与えられ、そのハイパーパラメータは、一定の量のデータと計算時間でベイズ最適化を用いて最適化される。
InriaとDeepGlobeの2つの大きな公開ベンチマークからなる大規模で多様なデータセットで実験を行った。
我々は、特定の変換器に基づくモデリング選択の影響を調べるために、さらなるアブレーション研究を行う。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな性能改善をもたらすことを示唆している。
しかし、畳み込み構造とトランスベース構造を組み合わせたハイブリッドモデルでは、この利点しか観測できません。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。