Fugu-MT 論文翻訳(概要): LASER: Attention with Exponential Transformation

論文の概要: LASER: Attention with Exponential Transformation

arxiv url: http://arxiv.org/abs/2411.03493v1
Date: Tue, 05 Nov 2024 20:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.78985
Title: LASER: Attention with Exponential Transformation
Title（参考訳）: LASER: 指数変換による注意
Authors: Sai Surya Duvvuri, Inderjit S. Dhillon,
Abstract要約: 注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。我々は、より大きな勾配信号を受け入れることを解析的に示すLASERと呼ばれる新しい注意機構を導入する。既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることを示す。
参考スコア（独自算出の注目度）: 20.1832156343096
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have had tremendous impact for several sequence related tasks, largely due to their ability to retrieve from any part of the sequence via softmax based dot-product attention. This mechanism plays a crucial role in Transformer's performance. We analyze the gradients backpropagated through the softmax operation in the attention mechanism and observe that these gradients can often be small. This poor gradient signal backpropagation can lead to inefficient learning of parameters preceeding the attention operations. To this end, we introduce a new attention mechanism called LASER, which we analytically show to admit a larger gradient signal. We show that LASER Attention can be implemented by making small modifications to existing attention implementations. We conduct experiments on autoregressive large language models (LLMs) with upto 2.2 billion parameters where we show upto 3.38% and an average of ~1% improvement over standard attention on downstream evaluations. Using LASER gives the following relative improvements in generalization performance across a variety of tasks (vision, text and speech): 4.67% accuracy in Vision Transformer (ViT) on Imagenet, 2.25% error rate in Conformer on the Librispeech speech-to-text and 0.93% fraction of incorrect predictions in BERT with 2.2 billion parameters.
Abstract（参考訳）: トランスフォーマーはいくつかのシークエンス関連タスクに大きな影響を与えてきたが、それは主にソフトマックスベースのドット・プロダクティヴ・アテンションによってシーケンスの任意の部分から取り出すことができるためである。このメカニズムはTransformerのパフォーマンスにおいて重要な役割を果たす。注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。この勾配信号のバックプロパゲーションの低下は、注意操作に先行するパラメータの非効率な学習につながる可能性がある。この目的のために、我々はLASERと呼ばれる新しい注意機構を導入し、より大きな勾配信号を持つことを解析的に示す。既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることが示される。我々は、最大220億のパラメータを持つ自己回帰型大言語モデル(LLM)の実験を行い、最大3.38%、ダウンストリーム評価における標準的注意よりも平均約1%改善する。 LASERを使用すると、様々なタスク(ビジョン、テキスト、音声)にわたる一般化性能が相対的に向上する: Imagenet上のVision Transformer(ViT)の4.67%の精度、Librispeechの音声テキスト変換におけるConformerの2.25%のエラー率、220億のパラメータを持つBERTの誤予測の0.93%のパーセンテージ。

関連論文リスト

DiffLoRA: Differential Low-Rank Adapters for Large Language Models [59.58987161199141]
本稿では,差分アテンション機構のパラメータ効率を考慮したDiffLoRAを提案する。我々はDiffLoRAを、一般的なベンチマーク、多ショットインコンテキスト学習、RAG、長期コンテキストテストなど、幅広いNLPタスクで評価する。
論文参考訳（メタデータ） (2025-07-31T14:24:59Z)
Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。 DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文参考訳（メタデータ） (2025-05-24T02:23:46Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文参考訳（メタデータ） (2024-11-12T08:30:59Z)
ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。既存の手法は依然として低ビットでの精度の低下に悩まされている。 ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文参考訳（メタデータ） (2024-07-03T02:41:59Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
ViT-LSLA: Vision Transformer with Light Self-Limited-Attention [4.903718320156974]
本稿では,計算コストとパラメータ数の削減を目的とした軽量自己拘束機構(LSA)と,性能向上のための自己拘束機構(SLA)からなる軽量自己拘束機構(LSLA)を提案する。 ViT-LSLAはIP102では71.6%、Mini-ImageNetでは87.2%である。
論文参考訳（メタデータ） (2022-10-31T07:46:45Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文参考訳（メタデータ） (2022-06-21T17:33:53Z)
ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。本稿では,ERNIE-Sparseというモデルを提案する。 i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文参考訳（メタデータ） (2022-03-23T08:47:01Z)
An Improved Single Step Non-autoregressive Transformer for Automatic Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。 CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文参考訳（メタデータ） (2021-06-18T02:58:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。