論文の概要: Block-Attention for Efficient RAG
- arxiv url: http://arxiv.org/abs/2409.15355v4
- Date: Thu, 17 Oct 2024 15:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:43:38.423579
- Title: Block-Attention for Efficient RAG
- Title(参考訳): 効率的なRAGのためのブロックアテンション
- Authors: East Sun, Yan Wang, Lan Tian,
- Abstract要約: Block-Attentionは、Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処する。
各パスをブロックとして定義することで、Block-Attentionは、これまで見てきたパスのKV状態の再利用を可能にします。
4つのRAGベンチマークの実験では、ブロックの微調整後、Block-Attentionモデルが自己注意モデルに匹敵するパフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 3.926246435703829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Traditional approaches often encode the entire context. Instead, Block-Attention divides retrieved documents into discrete blocks, with each block independently calculating key-value (KV) states except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to reuse the KV states of passages that have been seen before, thereby significantly reducing the latency and the computation overhead during inference. The implementation of Block-Attention involves block segmentation, position re-encoding, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block-Attention model achieves performance comparable to self-attention models (68.4\% vs 67.9\% on Llama3) or even superior performance (62.8\% vs 59.6\% on Mistral). Notably, Block-Attention significantly reduces the time to first token (TTFT) and floating point operations (FLOPs) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared to the self-attention models, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
- Abstract(参考訳): 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。
従来のアプローチでは、コンテキスト全体をエンコードすることが多い。
代わりに、Block-Attentionは取得した文書を個別のブロックに分割し、各ブロックは最終ブロックを除いてキー値(KV)状態を独立に計算する。
RAGのシナリオでは、各パスをブロックとして定義することで、以前見たパスのKV状態の再利用を可能にします。
Block-Attentionの実装には、ブロックセグメンテーション、位置再エンコーディング、およびブロック-Attentionメカニズムに適応するためのLLMの微調整が含まれる。
4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック・アテンション・モデルは自己アテンション・モデル(Llama3では68.4\%、Llama3では67.9\%、Mistralでは62.8\%、59.6\%)に匹敵する性能を達成した。
特に、Block-Attentionは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を非常に低くする。
入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。
自己注意モデルと比較して、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices [1.6114012813668932]
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため、有望である。
Unaligned block pruning (UBP) は、任意の位置にブロックを選択できるようにすることによってこの問題に対処する。
ブロック拡張と分割という,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-29T01:59:06Z) - Improved Block Merging for 3D Point Cloud Instance Segmentation [6.632158868486343]
提案手法は,すでに処理されているブロックの不正なラベル付き点をラベル伝搬によって修正することにより,最先端技術よりも改善する。
実験の結果,提案手法は,文献に用いた評価指標の精度を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-09T16:06:34Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines [75.5113002732746]
本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
論文 参考訳(メタデータ) (2023-03-06T13:49:41Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。