論文の概要: Latent Attention for Linear Time Transformers
- arxiv url: http://arxiv.org/abs/2402.17512v1
- Date: Tue, 27 Feb 2024 13:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:01:37.906700
- Title: Latent Attention for Linear Time Transformers
- Title(参考訳): 線形時間変圧器の潜時注意
- Authors: Rares Dolga, Marius Cobzarenco, David Barber
- Abstract要約: 双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。
双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。
- 参考スコア(独自算出の注目度): 8.640180203900583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The time complexity of the standard attention mechanism in a transformer
scales quadratically with the length of the sequence. We introduce a method to
reduce this to linear scaling with time, based on defining attention via latent
vectors. The method is readily usable as a drop-in replacement for the standard
attention mechanism. Our "Latte Transformer" model can be implemented for both
bidirectional and unidirectional tasks, with the causal version allowing a
recurrent implementation which is memory and time-efficient during inference of
language generation tasks. Whilst next token prediction scales linearly with
the sequence length for a standard transformer, a Latte Transformer requires
constant time to compute the next token. The empirical performance of our
method is comparable to standard attention, yet allows scaling to context
windows much larger than practical in standard attention.
- Abstract(参考訳): 変圧器の標準注意機構の時間的複雑さは、シーケンスの長さと二次的にスケールする。
遅延ベクトルによる注目度の定義に基づいて,これを時間とともに線形スケーリングに還元する手法を提案する。
この方法は、標準注意機構のドロップイン代替として容易に使用できる。
我々の"Latte Transformer"モデルは、双方向タスクと一方向タスクの両方に実装でき、因果バージョンは、言語生成タスクの推論中にメモリと時間効率の反復的な実装を可能にする。
次のトークン予測は標準変圧器のシーケンス長と線形にスケールするが、ラテ変圧器は次のトークンを計算するのに一定時間を要する。
提案手法の実証的性能は標準的な注意に匹敵するが,実用性よりもはるかに大きなコンテキストウインドウのスケーリングが可能となる。
関連論文リスト
- Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための生成変換器Timer-XLを提案する。
Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-07T07:27:39Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。