論文の概要: Block-Attention for Efficient RAG
- arxiv url: http://arxiv.org/abs/2409.15355v1
- Date: Wed, 25 Sep 2024 06:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.156097
- Title: Block-Attention for Efficient RAG
- Title(参考訳): 効率的なRAGのためのブロックアテンション
- Authors: East Sun, Yan Wang, and Lan Tian
- Abstract要約: 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
各パスをブロックとして定義することで、Block-AttentionはすべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることができます。
4つのRAGベンチマークの実験では、ブロックの微調整後、ブロック注意モデルは自己注意モデルよりもパフォーマンス(Llama3で68.4%、Llama3で67.9%、Mistralで62.8%、59.6%)が良いことが示されている。
- 参考スコア(独自算出の注目度): 3.926246435703829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Block-Attention, an attention mechanism designed to address the
increased inference latency and cost in Retrieval-Augmented Generation (RAG)
scenarios. Unlike existing works that encodes the whole context, its main idea
lies in dividing the retrieved documents into blocks, where each block
calculates key-value (KV) states independently except for the final block. In
RAG scenarios, by defining each passage as a block, Block-Attention enables us
to pre-compute the KV states for all passages and cache them in memory,
significantly reducing the latency and the computation cost during inference.
The implementation involves block segmentation, positional encoding
calculation, and fine-tuning the LLM to adapt to the Block-Attention mechanism.
Experiments on four RAG benchmarks demonstrate that after block fine-tuning,
the Block Attention model can achieve performance comparable to (68.4\% vs
67.9\% on Llama3) or even better (62.8\% vs 59.6\% on Mistral) than
self-attention models. Notably, Block-Attention reduces the TTFT (the time to
first token) and FLOPs (floating point operations) to a very low level. It only
takes 45 ms to output the first token for an input sequence with a total length
of 32K. Compared with the self-attention model, the time consumption and
corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
- Abstract(参考訳): 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
コンテキスト全体をエンコードする既存の作業とは異なり、その主な考え方は、取得した文書をブロックに分割することであり、各ブロックは最終ブロックを除いてキー値(KV)の状態を計算する。
RAGのシナリオでは、各パスをブロックとして定義することで、すべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることが可能になります。
この実装はブロックセグメンテーション、位置エンコーディングの計算、ブロック・アテンション・メカニズムに適応するためのLLMの微調整を含む。
4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック注意モデルは自己注意モデルよりも(Llama3では68.4\%対67.9\%)、さらに(Mistralでは62.8\%対59.6\%)パフォーマンスを達成できることを示した。
特に、Block-AttentionはTTFT(最初のトークンへの時間)とFLOP(浮動小数点演算)を非常に低いレベルに削減する。
入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。
自己注意モデルと比較すると、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。
関連論文リスト
- Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference [8.136601122570347]
後学習量子化(PTQ)は、より大きな言語モデル(LLM)のストレージと計算要求を、追加のトレーニングコストなしで削減するための有望なアプローチである。
最近のPTQ研究は、主に8ビット以上の活性化を維持しながら、重量のみを8ビット未満に定量化することに焦点を当てている。
論文 参考訳(メタデータ) (2025-02-07T23:06:03Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Improved Block Merging for 3D Point Cloud Instance Segmentation [6.632158868486343]
提案手法は,すでに処理されているブロックの不正なラベル付き点をラベル伝搬によって修正することにより,最先端技術よりも改善する。
実験の結果,提案手法は,文献に用いた評価指標の精度を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-09T16:06:34Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines [75.5113002732746]
本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
論文 参考訳(メタデータ) (2023-03-06T13:49:41Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。