論文の概要: Scaling Transformer to 1M tokens and beyond with RMT
- arxiv url: http://arxiv.org/abs/2304.11062v1
- Date: Wed, 19 Apr 2023 16:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:17:37.236778
- Title: Scaling Transformer to 1M tokens and beyond with RMT
- Title(参考訳): RMTによる100万トークン以上のTransformerのスケーリング
- Authors: Aydar Bulatov, Yuri Kuratov, Mikhail S. Burtsev
- Abstract要約: 我々は、モデルの有効コンテキスト長を、前例のない200万トークンにまで拡張することに成功しました。
本手法は,自然言語理解・生成タスクにおける長期依存処理を向上する大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 0.3529736140137003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents the application of a recurrent memory to
extend the context length of BERT, one of the most effective Transformer-based
models in natural language processing. By leveraging the Recurrent Memory
Transformer architecture, we have successfully increased the model's effective
context length to an unprecedented two million tokens, while maintaining high
memory retrieval accuracy. Our method allows for the storage and processing of
both local and global information and enables information flow between segments
of the input sequence through the use of recurrence. Our experiments
demonstrate the effectiveness of our approach, which holds significant
potential to enhance long-term dependency handling in natural language
understanding and generation tasks as well as enable large-scale context
processing for memory-intensive applications.
- Abstract(参考訳): 本技術報告では,自然言語処理において最も有効なトランスフォーマーモデルであるBERTのコンテキスト長を拡張するために,リカレントメモリの適用について述べる。
Recurrent Memory Transformerアーキテクチャを利用することで、高いメモリ取得精度を維持しながら、モデルの有効性を200万トークンにまで拡張することに成功した。
本手法は,局所的および大域的な情報の保存と処理を可能にし,再帰的手法を用いて入力シーケンスのセグメント間の情報フローを可能にする。
本実験は,自然言語理解および生成タスクにおける長期依存性処理の強化と,メモリ集約型アプリケーションにおける大規模コンテキスト処理の実現に有効なアプローチの有効性を示す。
関連論文リスト
- Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for
Transformers [25.86557845358799]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。