論文の概要: A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies
- arxiv url: http://arxiv.org/abs/2302.06218v2
- Date: Tue, 14 Feb 2023 14:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 11:37:16.099615
- Title: A Unified View of Long-Sequence Models towards Modeling Million-Scale
Dependencies
- Title(参考訳): 百万単位の依存をモデル化する時系列モデルの統一的視点
- Authors: Hongyu H\`e, Marko Kabic
- Abstract要約: 既存の解と長周期モデリングを、その純粋数学的定式化の観点から比較する。
次に、長いコンテキスト長がアプリケーションに依存しているにもかかわらず、より良いパフォーマンスをもたらすことを実証します。
大量のキャパシティを持つスパースモデルに着想を得て,百万単位の依存関係を扱う機械学習システムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ever since their conception, Transformers have taken over traditional
sequence models in many tasks, such as NLP, image classification, and
video/audio processing, for their fast training and superior performance. Much
of the merit is attributable to positional encoding and multi-head attention.
However, Transformers fall short in learning long-range dependencies mainly due
to the quadratic complexity scaled with context length, in terms of both time
and space. Consequently, over the past five years, a myriad of methods has been
proposed to make Transformers more efficient. In this work, we first take a
step back, study and compare existing solutions to long-sequence modeling in
terms of their pure mathematical formulation. Specifically, we summarize them
using a unified template, given their shared nature of token mixing. Through
benchmarks, we then demonstrate that long context length does yield better
performance, albeit application-dependent, and traditional Transformer models
fall short in taking advantage of long-range dependencies. Next, inspired by
emerging sparse models of huge capacity, we propose a machine learning system
for handling million-scale dependencies. As a proof of concept, we evaluate the
performance of one essential component of this system, namely, the distributed
multi-head attention. We show that our algorithm can scale up attention
computation by almost $40\times$ using four GeForce RTX 4090 GPUs, compared to
vanilla multi-head attention mechanism. We believe this study is an
instrumental step towards modeling million-scale dependencies.
- Abstract(参考訳): その概念以来、トランスフォーマーは、高速トレーニングと優れたパフォーマンスのために、nlp、画像分類、ビデオ/オーディオ処理など、多くのタスクで伝統的なシーケンスモデルを引き継いでいます。
利点の多くは、位置エンコーディングとマルチヘッドアテンションに起因する。
しかし、Transformerは、時間と空間の両面で、コンテキスト長でスケールされた二次的な複雑さのために、長距離依存の学習に不足している。
その結果、過去5年間にトランスフォーマーをより効率的にするための無数の方法が提案されてきた。
本研究はまず, 従来の解法を, 完全数学的定式化の観点から, 時系列モデリングと比較するものである。
具体的には,トークン混合の共通性を考えると,統一テンプレートを用いてそれらを要約する。
ベンチマークを通じて、長いコンテキストの長さは、アプリケーションに依存しながらもパフォーマンスを向上し、従来のトランスフォーマーモデルは、長距離依存の利点を生かすために不足していることを実証する。
次に,大容量のスパースモデルに着想を得て,百万の依存関係を扱うための機械学習システムを提案する。
概念実証として,本システムの本質的構成要素である分散マルチヘッドアテンションの性能を評価する。
我々は,GeForce RTX 4090 GPUを4台使用して,40ドル近いアテンション計算を,バニラ型マルチヘッドアテンション機構と比較してスケールアップ可能であることを示す。
この研究は、百万規模の依存関係をモデリングするための重要なステップだと考えています。
関連論文リスト
- UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。