Fugu-MT 論文翻訳(概要): Value Residual Learning For Alleviating Attention Concentration In Transformers

論文の概要: Value Residual Learning For Alleviating Attention Concentration In Transformers

arxiv url: http://arxiv.org/abs/2410.17897v2
Date: Thu, 14 Nov 2024 17:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.480966
Title: Value Residual Learning For Alleviating Attention Concentration In Transformers
Title（参考訳）: 変圧器の注意集中を軽減するための価値残留学習
Authors: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan,
Abstract要約: 複数の注意層を積み重ねると注意集中につながるこの問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。本稿では,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。
参考スコア（独自算出の注目度）: 14.898656879574622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the $KV$ cache by nearly 50\%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. Further visualization results suggest that Resformer alleviates attention sinks through avoiding value-state drains. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.
Abstract（参考訳）: トランスフォーマーは、セルフアテンションを使用して長距離依存関係をキャプチャし、トークンを他のすべてに直接参加させることができる。しかし、複数の注意層を積み重ねると、注意集中につながる。この問題に対処する自然な方法の1つは、レイヤ横断の注意を使うことで、以前のレイヤからの情報を後続のレイヤに直接アクセス可能にすることである。しかし、このアプローチは計算に高価である。この問題に対処するために,第1層の値から第1層の値への残差接続を付加することにより,層間注意を近似する残差値(ResFormer)の変換器を提案する。この方法に基づいて、1つの変種は、単一層値(SVFormer)を持つTransformerであり、すべての層が第1層から同じ値の埋め込みを共有し、$KV$キャッシュを約50%削減する。総合的な実証的な証拠は、ResFormerがより深い層における注意集中問題を緩和し、ほとんどの層をまたがる表現を強化し、トレーニングエラーや下流タスクにおいてバニラ変換器、DenseFormer、NeuTRENOよりも優れていることを示している。さらに可視化した結果、Resformerは、価値状態の排水を回避して注意シンクを緩和することを示唆している。 SVFormerはバニラトランスよりも大幅に高速で、GQAやCLAといった他の手法よりも性能が優れており、シーケンス長や累積学習率の影響を受けている。

関連論文リスト

SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity [30.260783715373382]
テスト時間適応(TTA)は、未ラベルのターゲットデータにオンラインで適応することで、ディープモデルの性能を向上させるために出現している。しかし、特にリソース制約のある端末におけるメモリコストは、ほとんどの後方プロパゲーションベースのTTAメソッドの効果的な展開を妨げる。メモリの制約に対処するため,SURGEONを導入する。
論文参考訳（メタデータ） (2025-03-26T09:27:09Z)
AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文参考訳（メタデータ） (2025-02-03T14:34:37Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
What Matters in Transformers? Not All Attention is Needed [7.857824255138334]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。また、冗長なアーキテクチャを導入し、現実世界のデプロイメントに効率上の課題を提起する。我々は、類似度に基づくメトリクスを用いて、ブロック、アテンション層を含むトランスフォーマー内の異なるモジュール間の冗長性を調べる。
論文参考訳（メタデータ） (2024-06-22T08:41:48Z)
MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-08T16:40:15Z)
CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文参考訳（メタデータ） (2023-12-21T03:46:29Z)
Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文参考訳（メタデータ） (2023-03-30T03:22:52Z)
EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文参考訳（メタデータ） (2023-03-03T13:05:30Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文参考訳（メタデータ） (2022-08-05T03:15:28Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)
Impact of Channel Variation on One-Class Learning for Spoof Detection [5.549602650463701]
スポット検出はASVシステムの信頼性を高めるが、チャネルの変動により著しく低下する。 MCTに最適なデータ供給戦略は何か?スプーフ検出では分かっていない。本研究は、データ供給とミニバッチの低重要度プロセスが、より良いパフォーマンスのために改善する必要性の認識を高めることの関連性を強調した。
論文参考訳（メタデータ） (2021-09-30T07:56:16Z)
Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文参考訳（メタデータ） (2021-08-05T17:51:32Z)
Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文参考訳（メタデータ） (2021-06-12T20:00:32Z)
DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文参考訳（メタデータ） (2021-03-22T14:32:07Z)
Train your classifier first: Cascade Neural Networks Training from upper layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文参考訳（メタデータ） (2021-02-09T08:19:49Z)
Layer Pruning via Fusible Residual Convolutional Block for Deep Neural Networks [15.64167076052513]
レイヤプルーニングは、同じFLOPとパラメータの数でプルーニングされる場合、推論時間と実行時のメモリ使用量が少なくなる。残差畳み込みブロック(ResConv)を用いた簡単な層切断法を提案する。本手法は, 異なるデータセット上での最先端技術に対する圧縮と加速の優れた性能を実現する。
論文参考訳（メタデータ） (2020-11-29T12:51:16Z)
DeFormer: Decomposing Pre-trained Transformers for Faster Question Answering [22.178201429268103]
トランスフォーマーベースのQAモデルは、質問と入力通路の両方にわたる入力ワイド自己アテンションを使用する。 DeFormerを導入し、下層層における全自己注意を質問全体および横断的自己注意に置き換える。 BERTとXLNetのDeFormerバージョンは、QAを4.3倍高速化するために使用でき、単純な蒸留に基づく損失は1%の精度でしか得られない。
論文参考訳（メタデータ） (2020-05-02T04:28:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。