Fugu-MT 論文翻訳(概要): RelayAttention for Efficient Large Language Model Serving with Long System Prompts

論文の概要: RelayAttention for Efficient Large Language Model Serving with Long System Prompts

arxiv url: http://arxiv.org/abs/2402.14808v2
Date: Thu, 29 Feb 2024 16:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 17:33:06.349440
Title: RelayAttention for Efficient Large Language Model Serving with Long System Prompts
Title（参考訳）: 長いシステムプロンプトを持つ効率的な大言語モデルのリレーアテンション
Authors: Lei Zhu, Xinjiang Wang, Wayne Zhang, Rynson W.H. Lau
Abstract要約: 本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
参考スコア（独自算出の注目度）: 65.00227938792064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Practical large language model (LLM) services may involve a long system prompt, which specifies the instructions, examples, and knowledge documents of the task and is reused across numerous requests. However, the long system prompt causes throughput/latency bottlenecks as the cost of generating the next token grows w.r.t. the sequence length. This paper aims to improve the efficiency of LLM services that involve long system prompts. Our key observation is that handling these system prompts requires heavily redundant memory accesses in existing causal attention computation algorithms. Specifically, for batched requests, the cached hidden states (i.e., key-value pairs) of system prompts are transferred from off-chip DRAM to on-chip SRAM multiple times, each corresponding to an individual request. To eliminate such a redundancy, we propose RelayAttention, an attention algorithm that allows reading these hidden states from DRAM exactly once for a batch of input tokens. RelayAttention is a free lunch: it maintains the generation quality while requiring no model retraining, as it is based on a mathematical reformulation of causal attention. Code is available at \url{https://github.com/rayleizhu/vllm-ra}.
Abstract（参考訳）: 実用的大規模言語モデル(llm)サービスには、タスクの指示、例、知識ドキュメントを指定する長いシステムプロンプトが含まれ、多数のリクエストにまたがって再利用される。しかし、次のトークンを生成するコストがシーケンス長に比例して増加すると、長いシステムがスループット/レイテンシのボトルネックを引き起こす。本稿では,長いシステムプロンプトを含むLCMサービスの効率化を目的とする。我々のキーとなる観察は、既存の因果注意計算アルゴリズムにおいて、これらのシステムプロンプトの処理には大量のメモリアクセスが必要であることである。具体的には、バッチリクエストでは、システムプロンプトのキャッシュされた隠された状態(すなわちキーと値のペア)がオフチップのDRAMからオンチップのSRAMに複数回転送される。このような冗長性を排除するため,DRAMから複数の入力トークンを正確に1回だけ読み取ることができるアテンションアルゴリズムであるRelayAttentionを提案する。 RelayAttentionは無料のランチであり、因果的注意の数学的再構成に基づくため、モデルの再トレーニングを必要とせず、世代品質を維持している。コードは \url{https://github.com/rayleizhu/vllm-ra} で入手できる。

関連論文リスト

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。現在の手法はコストと精度のトレードオフに直面している。 MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-03T02:57:38Z)
AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。 AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文参考訳（メタデータ） (2026-01-28T08:09:49Z)
TeleMem: Building Long-Term and Multimodal Memory for Agentic AI [43.36544433800511]
大規模言語モデル(LLM)は、多くのNLPタスクにおいて優れているが、対話履歴の拡張に対する注意が限られているため、長期的な相互作用を維持するのに苦労する。本稿では,コヒーレントなユーザプロファイルを物語動的抽出により維持する,長期・マルチモーダル統合メモリシステムTeleMemを提案する。 TeleMemは最先端のMem0ベースラインを19%上回り、トークンは43%減り、ZH-4Oの長期ロールプレイゲームベンチマークでは2.1倍高速化された。
論文参考訳（メタデータ） (2025-12-12T11:24:52Z)
LLM Serving Optimization with Variable Prefill and Decode Lengths [6.937936394246354]
本研究では,各要求が不均一なプレフィルとデコード長を持つLLM要求(Large Language Model)を提供する問題について検討する。この問題は、配置制約の相互運用、優先関係、メモリ使用量の線形増加などによりNPハードであることが示される。本稿では,時間とともに効率よくバッチを生成する新しい選択基準に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-08T08:54:21Z)
MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)
Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文参考訳（メタデータ） (2025-06-04T16:01:48Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Logarithmic Memory Networks (LMNs): Efficient Long-Range Sequence Modeling for Resource-Constrained Environments [0.0]
本稿では,階層型対数木構造を利用して過去の情報を効率的に保存・取得する新しいアーキテクチャである,対数記憶ネットワーク(LMN)を紹介する。 LMNは歴史的文脈を動的に要約し、注意機構のメモリフットプリントと計算複雑性を著しく低減する。これらの特徴により、LMNsはリソース制約のある環境で長距離シーケンスを処理するための堅牢でスケーラブルなソリューションとなる。
論文参考訳（メタデータ） (2025-01-14T07:50:09Z)
ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文参考訳（メタデータ） (2024-11-23T13:23:22Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。本稿では,スパースRAGという新しいパラダイムを提案する。 Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文参考訳（メタデータ） (2024-05-25T11:10:04Z)
SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文参考訳（メタデータ） (2024-05-21T06:37:03Z)
Efficient Memory Management for Large Language Model Serving with PagedAttention [44.70922552274376]
大規模言語モデル(LLM)の高スループットサービスには,一度に十分な数の要求が要求される。既存のシステムでは、各要求のキー値キャッシュ(KVキャッシュ)メモリが巨大で、成長し、動的に縮小するため、苦労している。本稿では,オペレーティングシステムにおける従来の仮想メモリとページング技術にヒントを得たアテンションアルゴリズムであるPagedAttentionを提案する。
論文参考訳（メタデータ） (2023-09-12T12:50:04Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)
Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文参考訳（メタデータ） (2023-04-26T07:25:31Z)
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-03T21:00:53Z)
Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文参考訳（メタデータ） (2021-06-02T11:58:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。