論文の概要: Attendre: Wait To Attend By Retrieval With Evicted Queries in
Memory-Based Transformers for Long Context Processing
- arxiv url: http://arxiv.org/abs/2401.04881v1
- Date: Wed, 10 Jan 2024 02:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:42:04.697182
- Title: Attendre: Wait To Attend By Retrieval With Evicted Queries in
Memory-Based Transformers for Long Context Processing
- Title(参考訳): restre: 長いコンテキスト処理のためのメモリベースのトランスフォーマーにおけるクエリの検索による参加待ち
- Authors: Zi Yang, Nan Hua
- Abstract要約: 効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。
本稿では,LRAやLFAなどの省略ポリシーを用いてメモリサイズを小さくし,様々なアーキテクチャに適応することを提案する。
また,クエリメモリ内のクエリを削除したキー値メモリを検索することで,待ち待ち待ちのメカニズムであるAttendre層を提案する。
- 参考スコア(独自算出の注目度): 2.9733429388858714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs have become capable of processing more complex types of inputs,
researchers have recently studied how to efficiently and affordably process
possibly arbitrarily long sequences. One effective approach is to use a FIFO
memory to store keys and values of an attention sublayer from past chunks to
allow subsequent queries to attend. However, this approach requires a large
memory and/or takes into the consideration the specific LM architecture.
Moreover, due to the causal nature between the key-values in prior context and
the queries at present, this approach cannot be extended to bidirectional
attention such as in an encoder-decoder or PrefixLM decoder-only architecture.
In this paper, we propose to use eviction policies, such as LRA and LFA, to
reduce the memory size and adapt to various architectures, and we also propose
the Attendre layer, a wait-to-attend mechanism by retrieving the key-value
memory (K/V memory) with evicted queries in the query memory (Q memory). As a
first step, we evaluate this method in the context length extension setup using
the TriviaQA reading comprehension task, and show the effectiveness of the
approach.
- Abstract(参考訳): LLMはより複雑な入力の処理が可能になったため、研究者は最近、任意に長いシーケンスを効率よく、かつ安価に処理する方法を研究した。
効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。
しかし、このアプローチには大きなメモリが必要であり、/または特定のLMアーキテクチャを考慮する必要がある。
さらに、事前コンテキストにおけるキー値と現在のクエリとの因果関係から、このアプローチは、エンコーダデコーダやプレフィックスのデコーダのみのアーキテクチャなど、双方向の注意に拡張することはできない。
本稿では,LRA や LFA などの消去ポリシーを用いてメモリサイズを削減し,様々なアーキテクチャに対応することを提案するとともに,クエリメモリ (Q メモリ) にキー値メモリ (K/V メモリ) を取り出すことで,待ち待ち行列機構である Attendre 層を提案する。
最初のステップとして、TriviaQA読解タスクを用いてコンテキスト長拡張設定において、この手法を評価し、アプローチの有効性を示す。
関連論文リスト
- Bifurcated Attention for Single-Context Large-Batch Sampling [39.16152482491236]
Bifurcated attentionは、単一コンテキストのバッチサンプリングコンテキストにおける言語モデル推論のために開発された手法である。
2つの異なるGEMM演算にインクリメンタルデコーディング中にアテンション機構を分割することで、この処理を実現する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and
Two-Phase Partition [3.997915521571668]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Anchor-based Large Language Models [48.5524307381447]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。
AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文 参考訳(メタデータ) (2024-02-12T12:48:02Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - Memory-efficient Transformers via Top-$k$ Attention [23.672065688109395]
本研究では,バニラ注意のための簡易かつ高精度な近似法を提案する。
クェリをチャンクで処理し、各クェリに対してキーに関するトップ$kのスコアを計算します。
我々のアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論を含む複数のセットアップにおいて、バニラの注意にほぼ同一の精度をもたらすことを示す。
論文 参考訳(メタデータ) (2021-06-13T02:30:23Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。