論文の概要: Hyena Hierarchy: Towards Larger Convolutional Language Models
- arxiv url: http://arxiv.org/abs/2302.10866v3
- Date: Wed, 19 Apr 2023 20:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 16:41:23.377274
- Title: Hyena Hierarchy: Towards Larger Convolutional Language Models
- Title(参考訳): hyena階層:より大きな畳み込み言語モデルに向けて
- Authors: Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao,
Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher R\'e
- Abstract要約: ハイエナは、暗黙的にパラメトリケートされた長い畳み込みとデータ制御ゲーティングをインターリーブすることによって構築された注意のための準四分法的なドロップイン置換である。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
- 参考スコア(独自算出の注目度): 115.82857881546089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have relied heavily on the use of large
Transformers due to their ability to learn at scale. However, the core building
block of Transformers, the attention operator, exhibits quadratic cost in
sequence length, limiting the amount of context accessible. Existing
subquadratic methods based on low-rank and sparse approximations need to be
combined with dense attention layers to match Transformers, indicating a gap in
capability. In this work, we propose Hyena, a subquadratic drop-in replacement
for attention constructed by interleaving implicitly parametrized long
convolutions and data-controlled gating. In recall and reasoning tasks on
sequences of thousands to hundreds of thousands of tokens, Hyena improves
accuracy by more than 50 points over operators relying on state-spaces and
other implicit and explicit methods, matching attention-based models. We set a
new state-of-the-art for dense-attention-free architectures on language
modeling in standard datasets (WikiText103 and The Pile), reaching Transformer
quality with a 20% reduction in training compute required at sequence length
2K. Hyena operators are twice as fast as highly optimized attention at sequence
length 8K, and 100x faster at sequence length 64K.
- Abstract(参考訳): 近年のディープラーニングの進歩は、大規模に学習する能力のため、大きなトランスフォーマーの使用に大きく依存している。
しかし、トランスのコア構成ブロックであるアテンション演算子はシーケンシャルな長さの二次コストを示し、アクセス可能なコンテキストの量を制限している。
低ランクおよびスパース近似に基づく既存のサブクワッドラティック手法は、トランスフォーマーにマッチする高密度の注意層と組み合わせて、能力のギャップを示す必要がある。
本研究では,暗黙的にパラメトリ化された長大畳み込みとデータ制御型ゲーティングをインターリーブし,注意を喚起するサブクアドラティックなドロップイン方式であるhyenaを提案する。
数千から数十万のトークン列のリコールおよび推論タスクにおいて、ハイエナは、注意ベースのモデルにマッチする状態空間やその他の暗黙的かつ明示的なメソッドに依存する演算子よりも50ポイント以上精度を向上させる。
我々は,標準データセット (WikiText103 と The Pile) における言語モデリングに基づく高密度アテンションレスアーキテクチャのための新しい最先端アーキテクチャを,シークエンス2Kに必要なトレーニング計算を20%削減してトランスフォーマー品質に到達した。
ハイエナ演算子は、シーケンス長8Kで高度に最適化された注意力と、シーケンス長64Kで100倍高速である。
関連論文リスト
- Long Sequence Modeling with Attention Tensorization: From Sequence to Tensor Learning [20.51822826798248]
本稿では、長い入力列をコンパクトなテンソル表現にテンソル化し、各変換次元に注意を向けることで、注意領域を拡大することを提案する。
提案手法は,トークンの依存関係をマルチホップアテンションプロセスとして符号化し,フルアテンションのクロネッカー分解と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-28T11:08:57Z) - Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - SE(3)-Hyena Operator for Scalable Equivariant Learning [5.354533854744212]
ヒエナ作用素に基づく同変長畳み込みモデルであるSE(3)-ヒエナを導入する。
我々のモデルは20kトークンの幾何学的文脈を同変変圧器のx3.5倍高速に処理する。
論文 参考訳(メタデータ) (2024-07-01T07:56:48Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。