論文の概要: Memory Efficient Transformer Adapter for Dense Predictions
- arxiv url: http://arxiv.org/abs/2502.01962v1
- Date: Tue, 04 Feb 2025 03:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:05.678468
- Title: Memory Efficient Transformer Adapter for Dense Predictions
- Title(参考訳): ディエンス予測のためのメモリ効率の良い変圧器アダプタ
- Authors: Dong Zhang, Rui Yan, Pingcheng Dong, Kwang-Ting Cheng,
- Abstract要約: 本稿では,メモリ効率を向上し,メモリ消費を低減できるメモリ効率の良いViTアダプタMETAを提案する。
提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。
METAは予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現している。
- 参考スコア(独自算出の注目度): 42.413108132475855
- License:
- Abstract: While current Vision Transformer (ViT) adapter methods have shown promising accuracy, their inference speed is implicitly hindered by inefficient memory access operations, e.g., standard normalization and frequent reshaping. In this work, we propose META, a simple and fast ViT adapter that can improve the model's memory efficiency and decrease memory time consumption by reducing the inefficient memory access operations. Our method features a memory-efficient adapter block that enables the common sharing of layer normalization between the self-attention and feed-forward network layers, thereby reducing the model's reliance on normalization operations. Within the proposed block, the cross-shaped self-attention is employed to reduce the model's frequent reshaping operations. Moreover, we augment the adapter block with a lightweight convolutional branch that can enhance local inductive biases, particularly beneficial for the dense prediction tasks, e.g., object detection, instance segmentation, and semantic segmentation. The adapter block is finally formulated in a cascaded manner to compute diverse head features, thereby enriching the variety of feature representations. Empirically, extensive evaluations on multiple representative datasets validate that META substantially enhances the predicted quality, while achieving a new state-of-the-art accuracy-efficiency trade-off. Theoretically, we demonstrate that META exhibits superior generalization capability and stronger adaptability.
- Abstract(参考訳): 現在のViT(Vision Transformer)アダプタ手法は有望な精度を示しているが、推論速度は非効率的なメモリアクセス操作、例えば標準正規化や頻繁な再フォーマットによって暗黙的に妨げられている。
本研究では,メモリの効率を向上し,非効率なメモリアクセス操作を減らしてメモリ使用時間を削減できる,シンプルで高速なViTアダプタMETAを提案する。
本手法は, 自己注意層とフィードフォワード層との間の層正規化を共通に共有するメモリ効率のよいアダプタブロックを特徴とし, モデルが正規化操作に依存することを低減させる。
提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。
さらに、局所的な帰納バイアスを高める軽量な畳み込み分岐でアダプタブロックを強化し、特に高密度な予測タスク、例えばオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに有効である。
アダプタブロックは最終的にカスケード方式で定式化され、多様な頭部特徴を計算し、様々な特徴表現をリッチ化する。
実証的に、複数の代表データセットに対する広範な評価は、METAが予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現していることを証明している。
理論的には、METAはより優れた一般化能力とより強力な適応性を示す。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - Revisiting the Parameter Efficiency of Adapters from the Perspective of
Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。
モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。
本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文 参考訳(メタデータ) (2023-07-31T17:22:17Z) - Optimizing ViViT Training: Time and Memory Reduction for Action
Recognition [30.431334125903145]
ビデオトランスによるトレーニング時間とメモリ消費がもたらす課題に対処する。
本手法は,この障壁を低くするように設計されており,トレーニング中に空間変圧器を凍結するという考え方に基づいている。
論文 参考訳(メタデータ) (2023-06-07T23:06:53Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。