Fugu-MT 論文翻訳(概要): Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing

論文の概要: Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing

arxiv url: http://arxiv.org/abs/2401.04881v1
Date: Wed, 10 Jan 2024 02:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 15:42:04.697182
Title: Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing
Title（参考訳）: restre: 長いコンテキスト処理のためのメモリベースのトランスフォーマーにおけるクエリの検索による参加待ち
Authors: Zi Yang, Nan Hua
Abstract要約: 効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。本稿では,LRAやLFAなどの省略ポリシーを用いてメモリサイズを小さくし,様々なアーキテクチャに適応することを提案する。また,クエリメモリ内のクエリを削除したキー値メモリを検索することで,待ち待ち待ちのメカニズムであるAttendre層を提案する。
参考スコア（独自算出の注目度）: 2.9733429388858714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As LLMs have become capable of processing more complex types of inputs, researchers have recently studied how to efficiently and affordably process possibly arbitrarily long sequences. One effective approach is to use a FIFO memory to store keys and values of an attention sublayer from past chunks to allow subsequent queries to attend. However, this approach requires a large memory and/or takes into the consideration the specific LM architecture. Moreover, due to the causal nature between the key-values in prior context and the queries at present, this approach cannot be extended to bidirectional attention such as in an encoder-decoder or PrefixLM decoder-only architecture. In this paper, we propose to use eviction policies, such as LRA and LFA, to reduce the memory size and adapt to various architectures, and we also propose the Attendre layer, a wait-to-attend mechanism by retrieving the key-value memory (K/V memory) with evicted queries in the query memory (Q memory). As a first step, we evaluate this method in the context length extension setup using the TriviaQA reading comprehension task, and show the effectiveness of the approach.
Abstract（参考訳）: LLMはより複雑な入力の処理が可能になったため、研究者は最近、任意に長いシーケンスを効率よく、かつ安価に処理する方法を研究した。効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。しかし、このアプローチには大きなメモリが必要であり、/または特定のLMアーキテクチャを考慮する必要がある。さらに、事前コンテキストにおけるキー値と現在のクエリとの因果関係から、このアプローチは、エンコーダデコーダやプレフィックスのデコーダのみのアーキテクチャなど、双方向の注意に拡張することはできない。本稿では,LRA や LFA などの消去ポリシーを用いてメモリサイズを削減し,様々なアーキテクチャに対応することを提案するとともに,クエリメモリ (Q メモリ) にキー値メモリ (K/V メモリ) を取り出すことで,待ち待ち行列機構である Attendre 層を提案する。最初のステップとして、TriviaQA読解タスクを用いてコンテキスト長拡張設定において、この手法を評価し、アプローチの有効性を示す。

関連論文リスト

Hierarchical Memory for High-Efficiency Long-Term Reasoning in LLM Agents [19.04968632268433]
大規模言語モデルエージェント(LLMエージェント)のための階層型メモリアーキテクチャを提案する。各メモリベクトルは、次の層のセマンティック関連サブメモリを指し示す位置インデックスが埋め込まれている。推論フェーズにおいて、インデックスベースのルーティング機構は、網羅的な類似性計算を行うことなく、効率的な層間検索を可能にする。
論文参考訳（メタデータ） (2025-07-23T12:45:44Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Cognitive Memory in Large Language Models [8.059261857307881]
本稿では,Large Language Models (LLMs) における記憶機構について検討し,文脈に富む応答の重要性,幻覚の減少,効率の向上などを強調した。メモリは、インプットプロンプト、短期記憶処理の即時コンテキスト、外部データベースや構造を介して実装された長期記憶に対応して、インプットプロンプト、短期記憶、長期記憶に分類する。
論文参考訳（メタデータ） (2025-04-03T09:58:19Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Enhancing Long Context Performance in LLMs Through Inner Loop Query Mechanism [2.919891871101241]
変換器は入力サイズと計算複雑性の2次スケーリングを持つ。 Retrieval-augmented Generation (RAG)は、検索システムを使用することで、より長いコンテキストを処理できる。インナーループメモリ拡張ツリー検索(ILM-TR)という新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-11T19:49:05Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文参考訳（メタデータ） (2024-06-11T12:03:57Z)
When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively [3.705145020383824]
本稿では,Large Language Models (LLMs) が,与えられた質問に答えるために追加のコンテキストを必要とする場合に,既製の情報検索(IR)システムを使用する方法を示す。
論文参考訳（メタデータ） (2024-04-30T16:52:55Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Anchor-based Large Language Models [33.86392289481657]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。 AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文参考訳（メタデータ） (2024-02-12T12:48:02Z)
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文参考訳（メタデータ） (2023-10-08T06:18:14Z)
Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文参考訳（メタデータ） (2023-07-14T21:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。