Fugu-MT 論文翻訳(概要): Latte: Latent Attention for Linear Time Transformers

論文の概要: Latte: Latent Attention for Linear Time Transformers

arxiv url: http://arxiv.org/abs/2402.17512v4
Date: Fri, 04 Oct 2024 14:19:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 02:42:37.684795
Title: Latte: Latent Attention for Linear Time Transformers
Title（参考訳）: Latte: 線形時間変換器の潜時注意
Authors: Rares Dolga, Lucas Maystre, Marius Cobzarenco, David Barber,
Abstract要約: 注意を喚起するための確率的枠組みを提案する。本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。結果として生じるLatte Transformer'は、標準的な注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 11.524573224123905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The time complexity of the standard attention mechanism in transformers scales quadratically with sequence length. We propose a probabilistic framework for attention, enabling us to derive a novel low-rank linear re-parameterisation of both bidirectional and causal cases, based on defining a latent variable model. Our method can be seamlessly integrated as a drop-in replacement for the standard attention mechanism. Additionally, this framework provides a natural extension for combining local standard attention with our global linear attention. This approach allows us to extend the context length of existing large pre-trained models with only a few additional training steps. The resulting ``Latte Transformer'' achieves performance comparable to standard attention and other state-of-the-art models, while maintaining linear time and memory complexity, along with constant-time next-token prediction during inference.
Abstract（参考訳）: 変圧器の標準注意機構の時間的複雑さは、シーケンス長で2次的にスケールする。そこで我々は,潜在変数モデルの定義に基づいて,双方向・因果両方の新しい低ランク線形再パラメータ化を導出する確率的枠組みを提案する。本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。さらに、このフレームワークは、ローカル標準の注意とグローバル線形の注意を結合するための自然な拡張を提供します。このアプローチにより,既存の大規模事前学習モデルのコンテキスト長を,ほんの数段階のトレーニングステップで拡張することが可能となる。結果として生じる `Latte Transformer' は、線形時間とメモリの複雑さを保ちながら、標準の注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。

関連論文リスト

Conv-like Scale-Fusion Time Series Transformer: A Multi-Scale Representation for Variable-Length Long Time Series [10.93942806756288]
トランスフォーマーベースのモデルには高度な時系列タスクがあるが、特徴冗長性と限定的な一般化機能に苦慮している。本稿では,Conv-like ScaleFusion Transformerに基づくマルチスケール表現学習フレームワークを提案する。我々のフレームワークは,最先端手法と比較して,優れた特徴独立性,冗長性の低減,予測および分類タスクの性能向上を実現している。
論文参考訳（メタデータ） (2025-09-22T14:37:59Z)
Rethinking Transformer Connectivity: TLinFormer, A Path to Exact, Full Context-Aware Linear Attention [0.0]
本稿では,新しいリニアアテンションアーキテクチャ-textbfTLinFormerを提案する。ニューロン接続パターンを再構成することにより、TLinFormerは正確な注意スコアを計算しながら厳密な線形複雑性を実現する。 TLinFormerは,textbfinference遅延, textbfKVキャッシュ効率, textbfMemoryフットプリントといった重要な指標において,圧倒的な優位性を示すことを示す。
論文参考訳（メタデータ） (2025-08-28T04:10:19Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文参考訳（メタデータ） (2025-06-05T08:44:51Z)
Sequence Complementor: Complementing Transformers For Time Series Forecasting with Learnable Sequences [5.244482076690776]
シーケンス表現の表現能力は、時間予測においてTransformerのパフォーマンスに影響を与える重要な要因であることがわかった。本稿では,シークエンス・コンプリメンタを用いた新しいアテンション機構を提案し,情報理論の観点から実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T03:08:39Z)
Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.83502953961505]
我々は時系列の統一予測のための生成変換器Timer-XLを提案する。 Timer-XLは、統一されたアプローチにより、挑戦的な予測ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-07T07:27:39Z)
PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2024-08-20T01:56:07Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Rough Transformers: Lightweight Continuous-Time Sequence Modelling with Path Signatures [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文参考訳（メタデータ） (2024-05-31T14:00:44Z)
Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文参考訳（メタデータ） (2023-11-22T17:30:41Z)
TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文参考訳（メタデータ） (2023-10-02T16:45:19Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2022-09-21T20:52:17Z)
Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting [86.33543833145457]
本稿では,2つの相互依存モジュールを持つ汎用フレームワークとして,非定常変圧器を提案する。我々のフレームワークは、メインストリームのトランスフォーマーを、大きなマージンで継続的に増加させ、トランスフォーマーで49.43%、インフォーマーで47.34%、改革派で46.89%削減します。
論文参考訳（メタデータ） (2022-05-28T12:27:27Z)
Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文参考訳（メタデータ） (2020-06-05T17:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。