論文の概要: LASER: Attention with Exponential Transformation
- arxiv url: http://arxiv.org/abs/2411.03493v1
- Date: Tue, 05 Nov 2024 20:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:33.223364
- Title: LASER: Attention with Exponential Transformation
- Title(参考訳): LASER: 指数変換による注意
- Authors: Sai Surya Duvvuri, Inderjit S. Dhillon,
- Abstract要約: 注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。
我々は、より大きな勾配信号を受け入れることを解析的に示すLASERと呼ばれる新しい注意機構を導入する。
既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることを示す。
- 参考スコア(独自算出の注目度): 20.1832156343096
- License:
- Abstract: Transformers have had tremendous impact for several sequence related tasks, largely due to their ability to retrieve from any part of the sequence via softmax based dot-product attention. This mechanism plays a crucial role in Transformer's performance. We analyze the gradients backpropagated through the softmax operation in the attention mechanism and observe that these gradients can often be small. This poor gradient signal backpropagation can lead to inefficient learning of parameters preceeding the attention operations. To this end, we introduce a new attention mechanism called LASER, which we analytically show to admit a larger gradient signal. We show that LASER Attention can be implemented by making small modifications to existing attention implementations. We conduct experiments on autoregressive large language models (LLMs) with upto 2.2 billion parameters where we show upto 3.38% and an average of ~1% improvement over standard attention on downstream evaluations. Using LASER gives the following relative improvements in generalization performance across a variety of tasks (vision, text and speech): 4.67% accuracy in Vision Transformer (ViT) on Imagenet, 2.25% error rate in Conformer on the Librispeech speech-to-text and 0.93% fraction of incorrect predictions in BERT with 2.2 billion parameters.
- Abstract(参考訳): トランスフォーマーはいくつかのシークエンス関連タスクに大きな影響を与えてきたが、それは主にソフトマックスベースのドット・プロダクティヴ・アテンションによってシーケンスの任意の部分から取り出すことができるためである。
このメカニズムはTransformerのパフォーマンスにおいて重要な役割を果たす。
注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。
この勾配信号のバックプロパゲーションの低下は、注意操作に先行するパラメータの非効率な学習につながる可能性がある。
この目的のために、我々はLASERと呼ばれる新しい注意機構を導入し、より大きな勾配信号を持つことを解析的に示す。
既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることが示される。
我々は、最大220億のパラメータを持つ自己回帰型大言語モデル(LLM)の実験を行い、最大3.38%、ダウンストリーム評価における標準的注意よりも平均約1%改善する。
LASERを使用すると、様々なタスク(ビジョン、テキスト、音声)にわたる一般化性能が相対的に向上する: Imagenet上のVision Transformer(ViT)の4.67%の精度、Librispeechの音声テキスト変換におけるConformerの2.25%のエラー率、220億のパラメータを持つBERTの誤予測の0.93%のパーセンテージ。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - ViT-LSLA: Vision Transformer with Light Self-Limited-Attention [4.903718320156974]
本稿では,計算コストとパラメータ数の削減を目的とした軽量自己拘束機構(LSA)と,性能向上のための自己拘束機構(SLA)からなる軽量自己拘束機構(LSLA)を提案する。
ViT-LSLAはIP102では71.6%、Mini-ImageNetでは87.2%である。
論文 参考訳(メタデータ) (2022-10-31T07:46:45Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2021-06-18T02:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。