論文の概要: Value Residual Learning For Alleviating Attention Concentration In Transformers
- arxiv url: http://arxiv.org/abs/2410.17897v3
- Date: Tue, 03 Dec 2024 12:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:21.330503
- Title: Value Residual Learning For Alleviating Attention Concentration In Transformers
- Title(参考訳): 変圧器の注意集中を軽減するための価値残留学習
- Authors: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan,
- Abstract要約: 本稿では,残値(ResFormer)を持つTransformerを提案し,層間注目度を近似する。
ResFormerは10.4%のモデルパラメータと13.6%のトレーニングデータで等価な検証損失を達成している。
SVFormerはKVキャッシュサイズを半減し、性能上のペナルティはわずかである。
- 参考スコア(独自算出の注目度): 14.898656879574622
- License:
- Abstract: Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer. Comprehensive empirical evidence demonstrates ResFormer achieves equivalent validation loss with 10.4% fewer model parameters and 13.6% less training data compared to Transformer, while maintaining similar memory usage and computational cost. Besides, SVFormer reduces KV cache size by nearly half with only a small performance penalty and can be integrated with other KV-efficient methods, yielding further reductions in KV cache, with performance influenced by sequence length and cumulative learning rate. Further visualization results suggest that Resformer and SVFormer alleviate attention concentration in deeper layers through avoiding value-state drains and enhance representation across most layers.
- Abstract(参考訳): トランスフォーマーは、セルフアテンションを使用して長距離依存関係をキャプチャし、トークンを他のすべてに直接参加させることができる。
しかし、複数の注意層を積み重ねると、注意集中につながる。
この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。
しかし、このアプローチは計算に高価である。
この問題に対処するために,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
この方法に基づいて、1つの変種が単一層値(SVFormer)を持つTransformerであり、すべての層が第1層から埋め込みされた同じ値を共有する。
総合的な実証的な証拠は、ResFormerが10.4%のモデルパラメータと13.6%のトレーニングデータで同等の検証損失を達成し、メモリ使用量と計算コストを維持できることを示している。
さらに、SVFormerは、KVキャッシュサイズを小さなパフォーマンスペナルティで半分近く削減し、他のKV効率の手法と統合でき、シーケンス長と累積学習率の影響を受けながら、KVキャッシュをさらに削減することができる。
さらに可視化した結果, Resformer と SVFormer は, 付加価値状態のドレインを回避し, 多くの層にまたがる表現を強化することにより, より深い層における注意集中を軽減することが示唆された。
関連論文リスト
- AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - EcoTTA: Memory-Efficient Continual Test-time Adaptation via
Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。
長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。
本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:30Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Impact of Channel Variation on One-Class Learning for Spoof Detection [5.549602650463701]
スポット検出はASVシステムの信頼性を高めるが、チャネルの変動により著しく低下する。
MCTに最適なデータ供給戦略は何か?スプーフ検出では分かっていない。
本研究は、データ供給とミニバッチの低重要度プロセスが、より良いパフォーマンスのために改善する必要性の認識を高めることの関連性を強調した。
論文 参考訳(メタデータ) (2021-09-30T07:56:16Z) - Layer Pruning via Fusible Residual Convolutional Block for Deep Neural
Networks [15.64167076052513]
レイヤプルーニングは、同じFLOPとパラメータの数でプルーニングされる場合、推論時間と実行時のメモリ使用量が少なくなる。
残差畳み込みブロック(ResConv)を用いた簡単な層切断法を提案する。
本手法は, 異なるデータセット上での最先端技術に対する圧縮と加速の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-11-29T12:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。