Fugu-MT 論文翻訳(概要): Latent Attention for Linear Time Transformers

論文の概要: Latent Attention for Linear Time Transformers

arxiv url: http://arxiv.org/abs/2402.17512v2
Date: Mon, 4 Mar 2024 12:21:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 23:26:28.912118
Title: Latent Attention for Linear Time Transformers
Title（参考訳）: 線形時間変圧器の潜時注意
Authors: Rares Dolga, Marius Cobzarenco, David Barber
Abstract要約: 双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。双方向タスクと一方向タスクの両方に"ラッテトランスフォーマー"モデルを実装できる。
参考スコア（独自算出の注目度）: 8.640180203900583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The time complexity of the standard attention mechanism in a transformer scales quadratically with the length of the sequence. We introduce a method to reduce this to linear scaling with time, based on defining attention via latent vectors. The method is readily usable as a drop-in replacement for the standard attention mechanism. Our "Latte Transformer" model can be implemented for both bidirectional and unidirectional tasks, with the causal version allowing a recurrent implementation which is memory and time-efficient during inference of language generation tasks. Whilst next token prediction scales linearly with the sequence length for a standard transformer, a Latte Transformer requires constant time to compute the next token. The empirical performance of our method is comparable to standard attention, yet allows scaling to context windows much larger than practical in standard attention.
Abstract（参考訳）: 変圧器の標準注意機構の時間的複雑さは、シーケンスの長さと二次的にスケールする。遅延ベクトルによる注目度の定義に基づいて,これを時間とともに線形スケーリングに還元する手法を提案する。この方法は、標準注意機構のドロップイン代替として容易に使用できる。我々の"Latte Transformer"モデルは、双方向タスクと一方向タスクの両方に実装でき、因果バージョンは、言語生成タスクの推論中にメモリと時間効率の反復的な実装を可能にする。次のトークン予測は標準変圧器のシーケンス長と線形にスケールするが、ラテ変圧器は次のトークンを計算するのに一定時間を要する。提案手法の実証的性能は標準的な注意に匹敵するが,実用性よりもはるかに大きなコンテキストウインドウのスケーリングが可能となる。

関連論文リスト

Conv-like Scale-Fusion Time Series Transformer: A Multi-Scale Representation for Variable-Length Long Time Series [10.93942806756288]
トランスフォーマーベースのモデルには高度な時系列タスクがあるが、特徴冗長性と限定的な一般化機能に苦慮している。本稿では,Conv-like ScaleFusion Transformerに基づくマルチスケール表現学習フレームワークを提案する。我々のフレームワークは,最先端手法と比較して,優れた特徴独立性,冗長性の低減,予測および分類タスクの性能向上を実現している。
論文参考訳（メタデータ） (2025-09-22T14:37:59Z)
Rethinking Transformer Connectivity: TLinFormer, A Path to Exact, Full Context-Aware Linear Attention [0.0]
本稿では,新しいリニアアテンションアーキテクチャ-textbfTLinFormerを提案する。ニューロン接続パターンを再構成することにより、TLinFormerは正確な注意スコアを計算しながら厳密な線形複雑性を実現する。 TLinFormerは,textbfinference遅延, textbfKVキャッシュ効率, textbfMemoryフットプリントといった重要な指標において,圧倒的な優位性を示すことを示す。
論文参考訳（メタデータ） (2025-08-28T04:10:19Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Sequence Complementor: Complementing Transformers For Time Series Forecasting with Learnable Sequences [5.244482076690776]
シーケンス表現の表現能力は、時間予測においてTransformerのパフォーマンスに影響を与える重要な要因であることがわかった。本稿では,シークエンス・コンプリメンタを用いた新しいアテンション機構を提案し,情報理論の観点から実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T03:08:39Z)
Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための生成変換器Timer-XLを提案する。 Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-07T07:27:39Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文参考訳（メタデータ） (2024-05-31T14:00:44Z)
Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文参考訳（メタデータ） (2023-11-22T17:30:41Z)
TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文参考訳（メタデータ） (2023-10-02T16:45:19Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2022-09-21T20:52:17Z)
Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting [86.33543833145457]
本稿では,2つの相互依存モジュールを持つ汎用フレームワークとして,非定常変圧器を提案する。我々のフレームワークは、メインストリームのトランスフォーマーを、大きなマージンで継続的に増加させ、トランスフォーマーで49.43%、インフォーマーで47.34%、改革派で46.89%削減します。
論文参考訳（メタデータ） (2022-05-28T12:27:27Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。