Fugu-MT 論文翻訳(概要): FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference

論文の概要: FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference

arxiv url: http://arxiv.org/abs/2405.04065v1
Date: Tue, 7 May 2024 07:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 15:09:09.427355
Title: FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference
Title（参考訳）: FlashBack:ロングコンテキスト推論のための効率的な検索言語モデリング
Authors: Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu,
Abstract要約: 追加コンテキストパターンによるALMの推論効率を向上させるためのモジュール型ALMである textscFlashBack を提案する。 textscFlashBacksはコンテキストの最後にドキュメントを検索し、KVキャッシュをプリコンパイルする代わりに効率的に活用する。
参考スコア（独自算出の注目度）: 47.03691582405274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Language Modeling (RALM) by integrating large language models (LLM) with relevant documents from an external corpus is a proven method for enabling the LLM to generate information beyond the scope of its pre-training corpus. Previous work using utilizing retrieved content by simply prepending retrieved contents to the input poses a high runtime issue, which degrades the inference efficiency of the LLMs because they fail to use the Key-Value (KV) cache efficiently. In this paper, we propose \textsc{FlashBack}, a modular RALM designed to improve the inference efficiency of RALM with appending context pattern while maintaining decent performance after specific fine-tuning without heavily destruct the knowledge integrity of the LLM. \textsc{FlashBack} appends retrieved documents at the end of the context for efficiently utilizing the KV cache instead of prepending them. Our experiment shows that the inference speed of \textsc{FlashBack} is up to $4\times$ faster than the prepending method on a 7B LLM (Llama 2). Via bypassing unnecessary re-computation, it demonstrates an advancement by achieving significantly faster inference speed, and this heightened efficiency will substantially reduce inferential cost. Our code will be publicly available.
Abstract（参考訳）: 大規模言語モデル(LLM)を外部コーパスから関連文書と統合することにより,LLMが事前学習コーパスの範囲を超えて情報を生成できることが証明された方法である。検索したコンテンツを利用する以前の作業は、検索したコンテンツが入力に反映されるのを単純に予測するだけで、高い実行時問題が発生し、キーバリュー(KV)キャッシュを効率的に使用できないため、LLMの推論効率が低下する。本稿では,LLMの知識の整合性を著しく損なうことなく,特定の微調整後の良好な性能を維持しつつ,付加コンテキストパターンによるALMの推論効率を向上させるために設計されたモジュールALMである。 \textsc{FlashBack} は、検索したドキュメントをコンテキストの最後に付加し、KVキャッシュをプリコンパイルする代わりに効率的に活用する。実験の結果,7B LLM (Llama 2) の予測法よりも最大4\times$の高速な推論速度が得られた。不要な再計算を回避し、推論速度を著しく速くすることで進歩を示し、この高効率化は推論コストを大幅に削減する。私たちのコードは公開されます。

関連論文リスト

Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文参考訳（メタデータ） (2025-06-04T16:01:48Z)
EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse [22.769631685777494]
クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
論文参考訳（メタデータ） (2025-05-28T02:07:03Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文参考訳（メタデータ） (2024-10-21T06:11:38Z)
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-25T23:14:47Z)
Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。 KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文参考訳（メタデータ） (2024-07-25T12:56:22Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。 LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文参考訳（メタデータ） (2024-04-11T17:57:22Z)
Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文参考訳（メタデータ） (2024-04-10T11:03:17Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。 LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文参考訳（メタデータ） (2023-10-25T06:23:48Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。