論文の概要: Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation
- arxiv url: http://arxiv.org/abs/2605.15913v2
- Date: Thu, 21 May 2026 06:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.858832
- Title: Towards Generalization of Block Attention via Automatic Segmentation and Block Distillation
- Title(参考訳): 自動セグメンテーションとブロック蒸留によるブロック注意の一般化に向けて
- Authors: Shuaiyi Li, Zhisong Zhang, Yan Wang, Lei Zhu, Dongyang Ma, Chenlong Deng, Yang Deng, Wai Lam,
- Abstract要約: ブロックアテンションは、Retrieval-Augmented Generation (RAG)のような長期コンテキストシナリオにおけるKVキャッシュの再利用を改善することができる。
しかし、入力テキストを意味のある自己完結ブロックに分割することの難しさと、性能低下のリスクを負う既存のブロック微調整手法の非効率性である。
ブロック微細チューニングよりも効率的な訓練フレームワークであるブロック蒸留を提案し, 凍結したフルアテンション教師モデルを用いて, ブロックアテンション学生を指導する。
- 参考スコア(独自算出の注目度): 61.19473093799777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block attention, which processes the input as separate blocks that cannot attend to one another, offers significant potential to improve KV cache reuse in long-context scenarios such as Retrieval-Augmented Generation (RAG). However, its broader application is hindered by two key challenges: the difficulty of segmenting input text into meaningful, self-contained blocks, and the inefficiency of existing block fine-tuning methods that risk degrading performance. To address these, we first construct SemanticSeg, a large and diverse semantic segmentation dataset containing over 30k instances across 16 categories-including books, code, web text, and conversations with text lengths ranging from 2k to 32k. Using this dataset, we train a lightweight segmenter to automatically partition text into human-instinct-aligned blocks with controllable granularity. Second, we propose block distillation, a training framework that is more efficient than block fine-tuning, which uses a frozen full-attention teacher model to guide the block-attention student. This framework integrates three novel components: block sink tokens to mitigate information loss at block boundaries, block dropout to leverage training signals from all blocks, and token-level loss weighting to focus learning on block-attention-sensitive tokens. Experiments across multiple models and benchmarks demonstrate that our segmenter outperforms heuristic and statistical baselines, and block distillation achieves near-full-attention performance under block attention, establishing a practical and scalable pathway for deploying block attention.
- Abstract(参考訳): ブロックアテンションは、入力を互いに参加できない別々のブロックとして処理するが、Retrieval-Augmented Generation (RAG)のような長いコンテキストシナリオにおいて、KVキャッシュの再利用を改善する大きな可能性を秘めている。
しかし、入力テキストを意味のある自己完結ブロックに分割することの難しさと、性能低下のリスクを負う既存のブロック微調整手法の非効率性である。
これらの問題に対処するために、まずSemanticSegを構築した。SemanticSegは、書籍、コード、Webテキスト、テキストの長さ2kから32kの会話を含む16のカテゴリにわたる30k以上のインスタンスを含む、大規模で多様なセマンティックセマンティックセマンティックセマンティックデータセットである。
このデータセットを使用して、軽量セグメンタをトレーニングし、テキストを自動的に人間の本能的なブロックに分割し、粒度を制御可能にします。
第2に,ブロック微細チューニングよりも効率的な訓練フレームワークであるブロック蒸留を提案し,凍結したフルアテンション教師モデルを用いて,ブロックアテンション学生を指導する。
このフレームワークは3つの新しいコンポーネントを統合している。ブロックシンクトークンはブロック境界における情報損失を軽減するために、ブロックドロップアウトはすべてのブロックからのトレーニング信号を活用する。
複数のモデルとベンチマークで実験したところ、セグメンタはヒューリスティックなベースラインや統計的ベースラインよりも優れており、ブロック蒸留はブロックアテンションの下でほぼ完全なアテンション性能を実現し、ブロックアテンションを展開するための実用的でスケーラブルな経路を確立している。
関連論文リスト
- Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation [11.910667302899638]
DiffusionBlocksは、トランスフォーマーベースのネットワークを独立したトレーニング可能なブロックに変換するための、原則化されたフレームワークである。
本実験は,DiffusionBlocksトレーニングがエンドツーエンドトレーニングの性能に合致することを示すものである。
論文 参考訳(メタデータ) (2025-06-17T05:44:18Z) - Block-Attention for Efficient Prefilling [6.916657784681611]
本稿では,Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処するアテンションメカニズムであるBlock-attentionを紹介する。
各パスをブロックとして定義することで、ブロックアテンションは、これまで見てきたパスのKV状態の再利用を可能にします。
ブロックアテンションは、最初のトークン(TTFT)と浮動小数点演算(FLOP)の時間を極端に低くする。
論文 参考訳(メタデータ) (2024-09-14T02:34:26Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z) - Structural block driven - enhanced convolutional neural representation
for relation extraction [11.617819771034927]
本稿では,構造ブロック駆動型畳み込みニューラルネットワークの軽量な関係抽出手法を提案する。
構造ブロックとして命名された依存性分析により、エンティティに関連する重要なシーケンシャルトークンを検出します。
我々はマルチスケールcnnを用いてブロックとブロック間の表現のみを符号化する。
論文 参考訳(メタデータ) (2021-03-21T10:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。