論文の概要: Linear Attention for Efficient Bidirectional Sequence Modeling
- arxiv url: http://arxiv.org/abs/2502.16249v1
- Date: Sat, 22 Feb 2025 14:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:19.911325
- Title: Linear Attention for Efficient Bidirectional Sequence Modeling
- Title(参考訳): 効率的な双方向シーケンスモデリングのための線形注意法
- Authors: Arshia Afzal, Elias Abad Rocamora, Leyla Naz Candogan, Pol Puigdemont, Francesco Tonin, Yongtao Wu, Mahsa Shoaran, Volkan Cevher,
- Abstract要約: この研究はLIONフレームワークを導入し、双方向シーケンスモデリングにおける線形トランスフォーマーの新たな理論基盤を確立する。
LION-LIT, (Katharopoulos et al., 2020), LION-D, Extend RetNet (Sun et al., 2023), and LION-S, a linear transformer with a stable selective mask of SSMs。
- 参考スコア(独自算出の注目度): 39.971678682875904
- License:
- Abstract: Transformers with linear attention enable fast and parallel training. Moreover, they can be formulated as Recurrent Neural Networks (RNNs), for efficient linear-time inference. While extensively evaluated in causal sequence modeling, they have yet to be extended to the bidirectional setting. This work introduces the LION framework, establishing new theoretical foundations for linear transformers in bidirectional sequence modeling. LION constructs a bidirectional RNN equivalent to full Linear Attention. This extends the benefits of linear transformers: parallel training, and efficient inference, into the bidirectional setting. Using LION, we cast three linear transformers to their bidirectional form: LION-LIT, the bidirectional variant corresponding to (Katharopoulos et al., 2020); LION-D, extending RetNet (Sun et al., 2023); and LION-S, a linear transformer with a stable selective mask inspired by selectivity of SSMs (Dao & Gu, 2024). Replacing the attention block with LION (-LIT, -D, -S) achieves performance on bidirectional tasks that approaches that of Transformers and State-Space Models (SSMs), while delivering significant improvements in training speed. Our implementation is available in http://github.com/LIONS-EPFL/LION.
- Abstract(参考訳): 線形注意を持つ変圧器は高速かつ並列な訓練を可能にする。
さらに、効率的な線形時間推論のために、リカレントニューラルネットワーク(RNN)として定式化することもできる。
因果配列モデリングでは広く評価されているが、まだ双方向設定にまで拡張されていない。
この研究はLIONフレームワークを導入し、双方向シーケンスモデリングにおける線形トランスフォーマーの新たな理論基盤を確立する。
LIONは、完全な線形注意に相当する双方向RNNを構築する。
これは、並列トレーニングと効率的な推論という、線形トランスフォーマーの利点を双方向設定に拡張する。
LION-LIT (Katharopoulos et al , 2020), LION-D,long RetNet (Sun et al , 2023), LION-S (SSMsの選択性にインスパイアされた安定な選択マスクを持つ線形変圧器 (Dao & Gu, 2024) である。
LION(-LIT, -D, -S)でアテンションブロックをリプレースすると、TransformerやState-Space Models(SSM)にアプローチする双方向タスクのパフォーマンスが向上し、トレーニング速度が大幅に向上する。
我々の実装はhttp://github.com/LIONS-EPFL/LIONで利用可能です。
関連論文リスト
- LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid [25.71221522518279]
線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。
既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いていない。
線形アテンショントランスモデルの訓練において,通信と計算の並列性を両立させる新しいSP手法であるLASP-2を導入する。
論文 参考訳(メタデータ) (2025-02-11T14:01:39Z) - LION: Linear Group RNN for 3D Object Detection in Point Clouds [85.97541374148508]
本稿では,LInear grOup RNN上に構築されたウィンドウベースフレームワークを提案する。
3次元空間特徴記述器を導入し,それを線形群 RNN 演算子に統合して空間特徴を増強する。
高分散点雲の課題にさらに対処するため,前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:50:32Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。