論文の概要: Landmark Attention: Random-Access Infinite Context Length for
Transformers
- arxiv url: http://arxiv.org/abs/2305.16300v1
- Date: Thu, 25 May 2023 17:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:11:56.870636
- Title: Landmark Attention: Random-Access Infinite Context Length for
Transformers
- Title(参考訳): ランドマーク注意:トランスフォーマーのランダムアクセス無限コンテキスト長
- Authors: Amirkeivan Mohtashami, Martin Jaggi
- Abstract要約: ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法は,特殊なデータ構造とシステムのメモリ階層とシームレスに統合され,任意の長さのコンテキストを処理できる。
- 参考スコア(独自算出の注目度): 57.202540419700135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While transformers have shown remarkable success in natural language
processing, their attention mechanism's large memory requirements have limited
their ability to handle longer contexts. Prior approaches, such as recurrent
memory or retrieval-based augmentation, have either compromised the
random-access flexibility of attention (i.e., the capability to select any
token in the entire context) or relied on separate mechanisms for relevant
context retrieval, which may not be compatible with the model's attention. In
this paper, we present a novel approach that allows access to the complete
context while retaining random-access flexibility, closely resembling running
attention on the entire context. Our method uses a landmark token to represent
each block of the input and trains the attention to use it for selecting
relevant blocks, enabling retrieval of blocks directly through the attention
mechanism instead of by relying on a separate mechanism. Our approach
seamlessly integrates with specialized data structures and the system's memory
hierarchy, enabling processing of arbitrarily long context lengths. We
demonstrate that our method can obtain comparable performance with
Transformer-XL while significantly reducing the number of retrieved tokens in
each step. Finally, we show that fine-tuning LLaMA 7B with our method
successfully extends its context length capacity up to 32k tokens, allowing for
inference at the context lengths of GPT-4.
- Abstract(参考訳): トランスフォーマーは自然言語処理において顕著な成功を収めているが、その注意力機構の大きなメモリ要件は、長いコンテキストを扱う能力に制限がある。
リカレントメモリや検索ベースの拡張といった以前のアプローチは、注意のランダムアクセスの柔軟性(すなわち、コンテキスト全体において任意のトークンを選択できる能力)を損なうか、モデルの注意と互換性のない、関連するコンテキスト検索のための別のメカニズムに依存するかのどちらかである。
本稿では,ランダムアクセスの柔軟性を維持しつつ,完全なコンテキストへのアクセスを可能にする新しい手法を提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注意を訓練し,別の機構に頼るのではなく,注意機構を通じて直接ブロックを検索できるようにする。
提案手法は,特殊なデータ構造とシステムのメモリ階層とシームレスに統合され,任意の長さのコンテキストを処理できる。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
最後に,提案手法を用いたllama 7bの微調整により,最大32kトークンまで拡張でき,gpt-4のコンテキスト長での推論が可能となった。
関連論文リスト
- Scaling Transformer to 1M tokens and beyond with RMT [0.3529736140137003]
我々は、モデルの有効コンテキスト長を、前例のない200万トークンにまで拡張することに成功しました。
本手法は,自然言語理解・生成タスクにおける長期依存処理を向上する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Structural block driven - enhanced convolutional neural representation
for relation extraction [11.617819771034927]
本稿では,構造ブロック駆動型畳み込みニューラルネットワークの軽量な関係抽出手法を提案する。
構造ブロックとして命名された依存性分析により、エンティティに関連する重要なシーケンシャルトークンを検出します。
我々はマルチスケールcnnを用いてブロックとブロック間の表現のみを符号化する。
論文 参考訳(メタデータ) (2021-03-21T10:23:44Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。