Fugu-MT 論文翻訳(概要): Linear Log-Normal Attention with Unbiased Concentration

論文の概要: Linear Log-Normal Attention with Unbiased Concentration

arxiv url: http://arxiv.org/abs/2311.13541v2
Date: Wed, 24 Jan 2024 15:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 17:08:14.455069
Title: Linear Log-Normal Attention with Unbiased Concentration
Title（参考訳）: 無バイアス濃度の線形対数正規注意
Authors: Yury Nahshan, Joseph Kampeas and Emir Haleva
Abstract要約: 本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
参考スコア（独自算出の注目度）: 3.034257650900382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer models have achieved remarkable results in a wide range of applications. However, their scalability is hampered by the quadratic time and memory complexity of the self-attention mechanism concerning the sequence length. This limitation poses a substantial obstacle when dealing with long documents or high-resolution images. In this work, we study the self-attention mechanism by analyzing the distribution of the attention matrix and its concentration ability. Furthermore, we propose instruments to measure these quantities and introduce a novel self-attention mechanism, Linear Log-Normal Attention, designed to emulate the distribution and concentration behavior of the original self-attention. Our experimental results on popular natural language benchmarks reveal that our proposed Linear Log-Normal Attention outperforms other linearized attention alternatives, offering a promising avenue for enhancing the scalability of transformer models. Our code is available in supplementary materials.
Abstract（参考訳）: トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。私たちのコードは補足資料で入手できる。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文参考訳（メタデータ） (2025-01-23T07:21:08Z)
Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文参考訳（メタデータ） (2024-12-09T15:44:22Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Latte: Latent Attention for Linear Time Transformers [11.524573224123905]
注意を喚起するための確率的枠組みを提案する。本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。結果として生じるLatte Transformer'は、標準的な注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-27T13:54:48Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Easy attention: A simple attention mechanism for temporal predictions with transformers [2.172584429650463]
キー,クエリ,ソフトマックスは,時間的シーケンスにおける長期依存を捉えるのに必要な注意点を得るのに必要ではないことを示す。提案手法は,注意点を直接学習可能なパラメータとして扱う。この手法はカオスシステムの時間的ダイナミクスの再構築と予測において優れた結果をもたらす。
論文参考訳（メタデータ） (2023-08-24T15:54:32Z)
Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文参考訳（メタデータ） (2022-02-13T08:44:10Z)
Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文参考訳（メタデータ） (2021-10-25T00:54:57Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)
Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文参考訳（メタデータ） (2020-09-29T21:05:39Z)
Untangling tradeoffs between recurrence and self-attention in neural networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文参考訳（メタデータ） (2020-06-16T19:24:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。