論文の概要: MetaLA: Unified Optimal Linear Approximation to Softmax Attention Map
- arxiv url: http://arxiv.org/abs/2411.10741v1
- Date: Sat, 16 Nov 2024 08:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:11.252152
- Title: MetaLA: Unified Optimal Linear Approximation to Softmax Attention Map
- Title(参考訳): MetaLA:Softmaxアテンションマップへの統一された最適線形近似
- Authors: Yuhong Chou, Man Yao, Kexin Wang, Yuqi Pan, Ruijie Zhu, Yiran Zhong, Yu Qiao, Jibin Wu, Bo Xu, Guoqi Li,
- Abstract要約: リニアトランス(LinFormer)、ステートスペースモデル(SSM)、リニアRNN(LinRNN)は、トランスフォーマー構造における従来のソフトマックスアテンションを置き換えるために提案されている。
現在の線形モデルはいずれも3つの条件をすべて満たさず、結果として準最適性能が得られる。
我々は,Multi-Query Associative Recall(MQAR)タスク,言語モデリング,画像分類,Long-Range Arenaベンチマークを用いて,MetaLAが既存の線形モデルよりも有効であることを実証した。
- 参考スコア(独自算出の注目度): 42.396856648479314
- License:
- Abstract: Various linear complexity models, such as Linear Transformer (LinFormer), State Space Model (SSM), and Linear RNN (LinRNN), have been proposed to replace the conventional softmax attention in Transformer structures. However, the optimal design of these linear models is still an open question. In this work, we attempt to answer this question by finding the best linear approximation to softmax attention from a theoretical perspective. We start by unifying existing linear complexity models as the linear attention form and then identify three conditions for the optimal linear attention design: 1) Dynamic memory ability; 2) Static approximation ability; 3) Least parameter approximation. We find that none of the current linear models meet all three conditions, resulting in suboptimal performance. Instead, we propose Meta Linear Attention (MetaLA) as a solution that satisfies these conditions. Our experiments on Multi-Query Associative Recall (MQAR) task, language modeling, image classification, and Long-Range Arena (LRA) benchmark demonstrate that MetaLA is more effective than the existing linear models.
- Abstract(参考訳): リニアトランスフォーマー(LinFormer)、ステートスペースモデル(SSM)、リニアRNN(LinRNN)などの線形複雑性モデルは、トランスフォーマー構造における従来のソフトマックスアテンションを置き換えるために提案されている。
しかし、これらの線形モデルの最適設計は依然として未解決の問題である。
本研究は,理論的な観点からソフトマックスアテンションに最適な線形近似を求めることによって,この問題に答えようとするものである。
まず、既存の線形複雑性モデルを線形注意形式として統一し、最適線形注意設計の条件を3つ特定することから始める。
1) 動的記憶能力
2) 静的近似能力
3)最小パラメータ近似。
現在の線形モデルはいずれも3つの条件をすべて満たさず、結果として準最適性能が得られる。
代わりに、これらの条件を満たすソリューションとしてMetaLA(Meta Linear Attention)を提案する。
本稿では,Multi-Query Associative Recall(MQAR)タスク,言語モデリング,画像分類,Long-Range Arena(LRA)ベンチマークを用いて,MetaLAが既存の線形モデルよりも有効であることを実証した。
関連論文リスト
- Weight-based Decomposition: A Case for Bilinear MLPs [0.0]
GLU(Gated Linear Units)は、現代の基礎モデルにおいて一般的なビルディングブロックとなっている。
Bilinear 層は "gate" の非線形性を低下させるが、他の GLU に匹敵する性能を持つ。
双線型テンソルを相互作用する固有ベクトルの集合に分解する手法を開発する。
論文 参考訳(メタデータ) (2024-06-06T10:46:51Z) - Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement
Learning in Discounted Linear MDPs [16.006893624836554]
本稿では,VBMLE (Value-Biased Maximum Likelihood Estimation) のレンズによる線形MDPの解法を提案する。
VBMLEは、各時間ステップで1つの最適化問題だけを解決する必要があるため、計算的により効率的である。
後悔する解析では、線形MDPにおけるMLEの一般収束結果が、新しいスーパーマーチンゲール構造を通して提供される。
論文 参考訳(メタデータ) (2023-10-17T18:27:27Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - To Each Optimizer a Norm, To Each Norm its Generalization [31.682969645989512]
過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-11T21:07:38Z) - Variational Inference and Learning of Piecewise-linear Dynamical Systems [33.23231229260119]
本稿では,線形力学系の変分近似を提案する。
モデルパラメータは静的パラメータと動的パラメータの2つの集合に分割でき、元のパラメータは線形モードの数やスイッチング変数の状態の数とともにオフラインで推定できることを示す。
論文 参考訳(メタデータ) (2020-06-02T14:40:35Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。