論文の概要: Do Transformers Need Deep Long-Range Memory
- arxiv url: http://arxiv.org/abs/2007.03356v1
- Date: Tue, 7 Jul 2020 11:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:11:30.613002
- Title: Do Transformers Need Deep Long-Range Memory
- Title(参考訳): 変圧器は深部ロングランジメモリを必要とする
- Authors: Jack W. Rae and Ali Razavi
- Abstract要約: Transformer-XLは、過去のアクティベーションの長距離メモリを拡張したTransformerで、さまざまなよく研究されたベンチマークで最先端であることが示されている。
ネットワークの下位層での注意範囲を制限することで、6倍少ない長距離メモリで同等の性能が得られることを示す。
- 参考スコア(独自算出の注目度): 21.98546721273412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep attention models have advanced the modelling of sequential data across
many domains. For language modelling in particular, the Transformer-XL -- a
Transformer augmented with a long-range memory of past activations -- has been
shown to be state-of-the-art across a variety of well-studied benchmarks. The
Transformer-XL incorporates a long-range memory at every layer of the network,
which renders its state to be thousands of times larger than RNN predecessors.
However it is unclear whether this is necessary. We perform a set of
interventions to show that comparable performance can be obtained with 6X fewer
long range memories and better performance can be obtained by limiting the
range of attention in lower layers of the network.
- Abstract(参考訳): ディープアテンションモデルは、多くのドメインにわたるシーケンシャルデータのモデリングを進歩させた。
特に言語モデリングでは、transformer-xl(過去のアクティベーションの長距離メモリで拡張されたトランスフォーマー)は、様々なよく研究されたベンチマークで最先端の技術であることが示されている。
Transformer-XLはネットワークのすべての層に長距離メモリを組み込んでおり、その状態はRNN以前のものより数千倍も大きい。
しかし、これが必要かどうかは不明である。
ネットワークの下位層における注意範囲を制限することにより,6倍の長大メモリで同等の性能を得ることができ,より優れた性能が得られることを示すために,一連の介入を行う。
関連論文リスト
- LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Freely Long-Thinking Transformer (FraiLT) [0.0]
Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。
FraiLTは再帰的アプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル間の認識を維持する。
合成ストーリーデータセットで評価すると、FraiLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。
論文 参考訳(メタデータ) (2024-01-21T23:37:33Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。