論文の概要: Linear Attention for Efficient Bidirectional Sequence Modeling
- arxiv url: http://arxiv.org/abs/2502.16249v2
- Date: Tue, 30 Sep 2025 14:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.918226
- Title: Linear Attention for Efficient Bidirectional Sequence Modeling
- Title(参考訳): 効率的な双方向シーケンスモデリングのための線形注意法
- Authors: Arshia Afzal, Elias Abad Rocamora, Leyla Naz Candogan, Pol Puigdemont, Francesco Tonin, Yongtao Wu, Mahsa Shoaran, Volkan Cevher,
- Abstract要約: LIONは、線形変換器を双方向設定に拡張する最初のフレームワークである。
LIONは因果的なケースでよく使われる3つのコア表現を双方向の設定に一般化する。
リニアトランスフォーマーの幅広いクラスをLIONを使って拡張できることを証明し、3つのコア例を通して我々のフレームワークを検証する。
- 参考スコア(独自算出の注目度): 46.25144265436029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear Transformers and State Space Models have emerged as efficient alternatives to softmax Transformers for causal sequence modeling, enabling parallel training via matrix multiplication and efficient RNN-style inference. However, despite their success in causal tasks, no unified framework exists for applying Linear Transformers to bidirectional sequence modeling. We introduce LION, the first framework to systematically extend Linear Transformers to the bidirectional setting. LION generalizes three core representations commonly used in the causal case - full Linear Attention , bidirectional RNN, and chunkwise parallel form - to the bidirectional setting. These forms are theoretically equivalent and enable models to exploit the strengths of each during training and inference. We prove that a broad class of Linear Transformers can be extended using LION and validate our framework via three core examples based on the choice of decay type: LION-LIT, the bidirectional extension of arXiv:2006.16236; LION-D, based on arXiv:2307.08621; and LION-S, a variant using selective decay arXiv:2103.02143, arXiv:2312.0075. Across standard bidirectional tasks, LION enables models to match or exceed the performance of softmax Transformers, while offering significantly faster training and more efficient inference than existing State Space Models.
- Abstract(参考訳): リニアトランスフォーマーとステートスペースモデルは、因果配列モデリングのためのソフトマックストランスフォーマーの効率的な代替品として登場し、行列乗算と効率的なRNNスタイルの推論による並列トレーニングを可能にした。
しかし、因果的タスクの成功にもかかわらず、線形変換器を双方向のシーケンスモデリングに適用するための統一的なフレームワークは存在しない。
線形変換器を双方向設定に体系的に拡張する最初のフレームワークであるLIONを紹介する。
LIONは、完全な線形注意、双方向RNN、チャンクワイズ並列形式の3つのコア表現を双方向設定に一般化する。
これらの形式は理論上等価であり、モデルがトレーニングや推論においてそれぞれの強みを利用することを可能にする。
LION-LIT, arXiv:2006.16236, LION-D, arXiv:2307.08621, arXiv:2103.02143, arXiv:2312.0075。
標準の双方向タスク全体にわたって、LIONはモデルがソフトマックストランスフォーマーのパフォーマンスにマッチまたは超過することを可能にし、既存のステートスペースモデルよりもはるかに高速なトレーニングとより効率的な推論を提供する。
関連論文リスト
- Liger: Linearizing Large Language Models to Gated Recurrent Structures [9.665802842933209]
大規模言語モデル(LLM)の線形化は、事前訓練された標準モデルを線形再帰構造に変換する。
Ligerは、事前訓練されたLLMを余分なパラメータを加えることなくゲート線形リカレントモデルに変換する新しいアプローチである。
論文 参考訳(メタデータ) (2025-03-03T13:08:00Z) - LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid [25.71221522518279]
線形アテンションのような線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長に対する定数メモリ推論のような利点を提供する。
既存のシーケンス並列性(SP)法は、線形注意の右積第一の特徴に最適化されていないか、リングスタイルの通信戦略を用いていない。
線形アテンショントランスモデルの訓練において,通信と計算の並列性を両立させる新しいSP手法であるLASP-2を導入する。
論文 参考訳(メタデータ) (2025-02-11T14:01:39Z) - LION: Linear Group RNN for 3D Object Detection in Point Clouds [85.97541374148508]
本稿では,LInear grOup RNN上に構築されたウィンドウベースフレームワークを提案する。
3次元空間特徴記述器を導入し,それを線形群 RNN 演算子に統合して空間特徴を増強する。
高分散点雲の課題にさらに対処するため,前景の特徴を密度化するための3次元ボクセル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-07-25T17:50:32Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。