論文の概要: Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers
- arxiv url: http://arxiv.org/abs/2308.09372v3
- Date: Fri, 19 Jul 2024 10:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:35:58.364330
- Title: Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers
- Title(参考訳): どの変圧器を好むか:視覚変換器の効率の比較分析
- Authors: Tobias Christian Nauen, Sebastian Palacio, Federico Raue, Andreas Dengel,
- Abstract要約: トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
- 参考スコア(独自算出の注目度): 7.89533262149443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention in Transformers comes with a high computational cost because of their quadratic computational complexity, but their effectiveness in addressing problems in language and vision has sparked extensive research aimed at enhancing their efficiency. However, diverse experimental conditions, spanning multiple input domains, prevent a fair comparison based solely on reported results, posing challenges for model selection. To address this gap in comparability, we perform a large-scale benchmark of more than 45 models for image classification, evaluating key efficiency aspects, including accuracy, speed, and memory usage. Our benchmark provides a standardized baseline for efficiency-oriented transformers. We analyze the results based on the Pareto front -- the boundary of optimal models. Surprisingly, despite claims of other models being more efficient, ViT remains Pareto optimal across multiple metrics. We observe that hybrid attention-CNN models exhibit remarkable inference memory- and parameter-efficiency. Moreover, our benchmark shows that using a larger model in general is more efficient than using higher resolution images. Thanks to our holistic evaluation, we provide a centralized resource for practitioners and researchers, facilitating informed decisions when selecting or developing efficient transformers.
- Abstract(参考訳): トランスフォーマーにおける自己注意は、2次計算の複雑さのために高い計算コストが伴うが、言語や視覚における問題に対処する上での有効性は、その効率を高めることを目的とした広範な研究を引き起こしている。
しかし、複数の入力領域にまたがる多様な実験条件は、報告された結果のみに基づく公正な比較を防止し、モデル選択の課題を提起する。
このようなコンパラビリティのギャップに対処するため、画像分類のための45モデル以上の大規模ベンチマークを行い、精度、速度、メモリ使用量などの重要な効率面を評価した。
我々のベンチマークは、効率指向変換器の標準化されたベースラインを提供する。
最適モデルのバウンダリであるParetoフロントに基づいて結果を分析する。
驚くべきことに、他のモデルの方が効率的という主張にもかかわらず、ViTはParetoを複数のメトリクスで最適に保っている。
我々は,ハイブリッドアテンション-CNNモデルにおいて,メモリとパラメータの効率が著しく向上することが観察された。
さらに,本ベンチマークでは,高分解能画像よりも高次モデルの方が高効率であることが示唆された。
総合的な評価により,我々は,効率的なトランスフォーマーの選択や開発を行う際の情報的意思決定を容易にし,実践者や研究者に集中的なリソースを提供する。
関連論文リスト
- E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。