論文の概要: Position Embedding Needs an Independent Layer Normalization
- arxiv url: http://arxiv.org/abs/2212.05262v1
- Date: Sat, 10 Dec 2022 10:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:19:50.458772
- Title: Position Embedding Needs an Independent Layer Normalization
- Title(参考訳): 独立層正規化を必要とする位置埋め込み
- Authors: Runyi Yu, Zhennan Wang, Yinhuai Wang, Kehan Li, Yian Zhao, Jian Zhang,
Guoli Song, Jie Chen
- Abstract要約: 本研究では,LaPE(Layer-Adaptive Position Embedding)が様々なタイプのPEで様々な視覚変換器(VT)を改善することを示す。
LaPEはCifar10のViT-Liteの0.94%、Cifar100のCCTの0.98%、ImageNet-1KのDeiTの1.72%の精度を改善している。
- 参考スコア(独自算出の注目度): 14.08997314908106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Position Embedding (PE) is critical for Vision Transformers (VTs) due to
the permutation-invariance of self-attention operation. By analyzing the input
and output of each encoder layer in VTs using reparameterization and
visualization, we find that the default PE joining method (simply adding the PE
and patch embedding together) operates the same affine transformation to token
embedding and PE, which limits the expressiveness of PE and hence constrains
the performance of VTs. To overcome this limitation, we propose a simple,
effective, and robust method. Specifically, we provide two independent layer
normalizations for token embeddings and PE for each layer, and add them
together as the input of each layer's Muti-Head Self-Attention module. Since
the method allows the model to adaptively adjust the information of PE for
different layers, we name it as Layer-adaptive Position Embedding, abbreviated
as LaPE. Extensive experiments demonstrate that LaPE can improve various VTs
with different types of PE and make VTs robust to PE types. For example, LaPE
improves 0.94% accuracy for ViT-Lite on Cifar10, 0.98% for CCT on Cifar100, and
1.72% for DeiT on ImageNet-1K, which is remarkable considering the negligible
extra parameters, memory and computational cost brought by LaPE. The code is
publicly available at https://github.com/Ingrid725/LaPE.
- Abstract(参考訳): 位置埋め込み (PE) は視覚変換器 (VT) にとって, 自己アテンション操作の置換不変性のために重要である。
再パラメータ化と可視化により,各エンコーダ層の入力と出力をVTで解析することにより,既定のPE結合法(PEの追加とパッチの埋め込み)が,PEの表現性を制限し,VTの性能を制約するトークン埋め込みとPEへの同一のアフィン変換を行うことがわかった。
この制限を克服するために、単純で効果的で堅牢な手法を提案する。
具体的には、各層に対してトークン埋め込みのための2つの独立したレイヤ正規化とPEを提供し、各層のMuti-Head Self-Attentionモジュールの入力としてそれらを統合する。
この手法により,peの情報を異なる層に対して適応的に調整できるため,lapeと略される層適応位置埋め込み (layer-adaptive position embedded) と呼ぶ。
大規模な実験により、LaPEは異なるタイプのPEで様々なVTを改良し、PEタイプに対してVTを堅牢化できることが示されている。
例えば、LaPEはCifar10上のViT-Liteの0.94%、Cifar100上のCCTの0.98%、ImageNet-1K上のDeiTの1.72%の精度を改善している。
コードはhttps://github.com/Ingrid725/LaPEで公開されている。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - AdPE: Adversarial Positional Embeddings for Pretraining Vision
Transformers via MAE+ [44.856035786948915]
本稿では,前訓練型視覚変換器に対するAdPE (Adversarial Positional Embedding) アプローチを提案する。
AdPEは位置エンコーディングを摂動することで局所的な視覚構造を歪ませる。
実験により,本手法はMAEの微調整精度を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-03-14T02:42:01Z) - FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer [14.993203705812654]
最近の研究は、いくつかのパラメータを更新することで、事前訓練された視覚変換器(ViT)に適応する可能性を探っている。
現在のPETL法では、パラメータの0.5%だけをチューニングすることで、ViTは完全な微調整よりもより優れたパフォーマンスでダウンストリームタスクに適応できることが示されている。
トレーニング可能なパラメータは8K(ViTのパラメータの0.01%)しか使用していないが、フル微調整や他のPETLメソッドよりも優れている小さなバージョンを提示する。
論文 参考訳(メタデータ) (2022-12-06T17:18:33Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via
Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。
従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文 参考訳(メタデータ) (2021-04-08T08:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。