Fugu-MT 論文翻訳(概要): Block-Attention for Efficient RAG

論文の概要: Block-Attention for Efficient RAG

arxiv url: http://arxiv.org/abs/2409.15355v1
Date: Wed, 25 Sep 2024 06:46:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 21:27:33.156097
Title: Block-Attention for Efficient RAG
Title（参考訳）: 効率的なRAGのためのブロックアテンション
Authors: East Sun, Yan Wang, and Lan Tian
Abstract要約: 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。各パスをブロックとして定義することで、Block-AttentionはすべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることができます。 4つのRAGベンチマークの実験では、ブロックの微調整後、ブロック注意モデルは自己注意モデルよりもパフォーマンス(Llama3で68.4%、Llama3で67.9%、Mistralで62.8%、59.6%)が良いことが示されている。
参考スコア（独自算出の注目度）: 3.926246435703829
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Block-Attention, an attention mechanism designed to address the increased inference latency and cost in Retrieval-Augmented Generation (RAG) scenarios. Unlike existing works that encodes the whole context, its main idea lies in dividing the retrieved documents into blocks, where each block calculates key-value (KV) states independently except for the final block. In RAG scenarios, by defining each passage as a block, Block-Attention enables us to pre-compute the KV states for all passages and cache them in memory, significantly reducing the latency and the computation cost during inference. The implementation involves block segmentation, positional encoding calculation, and fine-tuning the LLM to adapt to the Block-Attention mechanism. Experiments on four RAG benchmarks demonstrate that after block fine-tuning, the Block Attention model can achieve performance comparable to (68.4\% vs 67.9\% on Llama3) or even better (62.8\% vs 59.6\% on Mistral) than self-attention models. Notably, Block-Attention reduces the TTFT (the time to first token) and FLOPs (floating point operations) to a very low level. It only takes 45 ms to output the first token for an input sequence with a total length of 32K. Compared with the self-attention model, the time consumption and corresponding FLOPs are reduced by 98.7\% and 99.8\%, respectively.
Abstract（参考訳）: 本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-Attentionを紹介する。コンテキスト全体をエンコードする既存の作業とは異なり、その主な考え方は、取得した文書をブロックに分割することであり、各ブロックは最終ブロックを除いてキー値(KV)の状態を計算する。 RAGのシナリオでは、各パスをブロックとして定義することで、すべてのパスのKV状態をプリコンプリートし、メモリにキャッシュすることが可能になります。この実装はブロックセグメンテーション、位置エンコーディングの計算、ブロック・アテンション・メカニズムに適応するためのLLMの微調整を含む。 4つのRAGベンチマークの実験では、ブロック微調整の後、ブロック注意モデルは自己注意モデルよりも(Llama3では68.4\%対67.9\%)、さらに(Mistralでは62.8\%対59.6\%)パフォーマンスを達成できることを示した。特に、Block-AttentionはTTFT(最初のトークンへの時間)とFLOP(浮動小数点演算)を非常に低いレベルに削減する。入力シーケンスの最初のトークンを出力するのに45ミリ秒しかかからない。自己注意モデルと比較すると、時間消費と対応するFLOPはそれぞれ98.7\%と99.8\%に減少する。

関連論文リスト

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文参考訳（メタデータ） (2025-03-20T17:59:58Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。 NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文参考訳（メタデータ） (2025-02-11T17:57:53Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。 Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
Realizing Unaligned Block-wise Pruning for DNN Acceleration on Mobile Devices [1.6114012813668932]
ブロックワイドプルーニングは、スピードアップゲインに対する低い精度のドロップトレードオフのため、有望である。 Unaligned block pruning (UBP) は、任意の位置にブロックを選択できるようにすることによってこの問題に対処する。ブロック拡張と分割という,擬似最適かつ高速なブロック選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-29T01:59:06Z)
Improved Block Merging for 3D Point Cloud Instance Segmentation [6.632158868486343]
提案手法は,すでに処理されているブロックの不正なラベル付き点をラベル伝搬によって修正することにより,最先端技術よりも改善する。実験の結果,提案手法は,文献に用いた評価指標の精度を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-07-09T16:06:34Z)
Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。 LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文参考訳（メタデータ） (2024-06-14T13:42:38Z)
Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-04-23T08:39:29Z)
Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文参考訳（メタデータ） (2024-03-29T12:15:06Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T22:41:58Z)
Blockchain Large Language Models [65.7726590159576]
本稿では,異常なブロックチェーントランザクションを検出するための動的,リアルタイムなアプローチを提案する。提案するツールであるBlockGPTは、ブロックチェーンアクティビティのトレース表現を生成し、大規模な言語モデルをスクラッチからトレーニングして、リアルタイム侵入検出システムとして機能させる。
論文参考訳（メタデータ） (2023-04-25T11:56:18Z)
SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines [75.5113002732746]
本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。 SC-Blockを8つの最先端のブロッキング手法と比較した。全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
論文参考訳（メタデータ） (2023-03-06T13:49:41Z)
Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文参考訳（メタデータ） (2021-10-05T03:38:43Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Algorithm to Compilation Co-design: An Integrated View of Neural Network Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文参考訳（メタデータ） (2021-06-16T15:13:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。