論文の概要: Block-Attention for Efficient RAG
- arxiv url: http://arxiv.org/abs/2409.15355v1
- Date: Wed, 25 Sep 2024 06:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:27:33.156097
- Title: Block-Attention for Efficient RAG
- Title(参考訳): 効率的なRAGのためのブロックアテンション
- Authors: East Sun, Yan Wang, and Lan Tian
- Abstract要約: 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
各パスをブロックとして定義することで、Block-AttentionはすべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることができます。
4つのRAGベンチマークの実験では、ブロックの微調整後、ブロック注意モデルは自己注意モデルよりもパフォーマンス(Llama3で68.4%、Llama3で67.9%、Mistralで62.8%、59.6%)が良いことが示されている。
- 参考スコア(独自算出の注目度): 3.926246435703829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Block-Attention, an attention mechanism designed to address the
increased inference latency and cost in Retrieval-Augmented Generation (RAG)
scenarios. Unlike existing works that encodes the whole context, its main idea
lies in dividing the retrieved documents into blocks, where each block
calculates key-value (KV) states independently except for the final block. In
RAG scenarios, by defining each passage as a block, Block-Attention enables us
to pre-compute the KV states for all passages and cache them in memory,
significantly reducing the latency and the computation cost during inference.
The implementation involves block segmentation, positional encoding
calculation, and fine-tuning the LLM to adapt to the Block-Attention mechanism.
Experiments on four RAG benchmarks demonstrate that after block fine-tuning,
the Block Attention model can achieve performance comparable to (68.4\% vs
67.9\% on Llama3) or even better (62.8\% vs 59.6\% on Mistral) than
self-attention models. Notably, Block-Attention reduces the TTFT (the time to
first token) and FLOPs (floating point operations) to a very low level. It only
takes 45 ms to output the first token for an input sequence with a total length
of 32K. Compared with the self-attention model, the time consumption and
corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
- Abstract(参考訳): 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
コンテキスト全体をエンコードする既存の作業とは異なり、その主な考え方は、取得した文書をブロックに分割することであり、各ブロックは最終ブロックを除いてキー値(KV)の状態を計算する。
RAGのシナリオでは、各パスをブロックとして定義することで、すべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることが可能になります。
この実装はブロックセグメンテーション、位置エンコーディングの計算、ブロック・アテンション・メカニズムに適応するためのLLMの微調整を含む。
4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック注意モデルは自己注意モデルよりも(Llama3では68.4\%対67.9\%)、さらに(Mistralでは62.8\%対59.6\%)パフォーマンスを達成できることを示した。
特に、Block-AttentionはTTFT(最初のトークンへの時間)とFLOP(浮動小数点演算)を非常に低いレベルに削減する。
入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。
自己注意モデルと比較すると、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices [1.6114012813668932]
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため、有望である。
Unaligned block pruning (UBP) は、任意の位置にブロックを選択できるようにすることによってこの問題に対処する。
ブロック拡張と分割という,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-29T01:59:06Z) - Improved Block Merging for 3D Point Cloud Instance Segmentation [6.632158868486343]
提案手法は,すでに処理されているブロックの不正なラベル付き点をラベル伝搬によって修正することにより,最先端技術よりも改善する。
実験の結果,提案手法は,文献に用いた評価指標の精度を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-09T16:06:34Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines [75.5113002732746]
本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
論文 参考訳(メタデータ) (2023-03-06T13:49:41Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。