論文の概要: LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2606.01336v1
- Date: Sun, 31 May 2026 16:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.593038
- Title: LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
- Title(参考訳): LongAttnComp:ロングコンテキスト推論のためのクロスファミリコンテキスト圧縮
- Authors: Mengmeng Ji, Ravi Shanker Raju, Jonathan Lingjie Li, Chen Wu,
- Abstract要約: LongAttnCompは、軽量なクロスアテンションスコアリング層を微調整するAttnCompの長いコンテキスト適応である。
InfiniteBenchのコード-デバッグでは、LongAttnCompはフルコンテキストの正確さにマッチするか、超える。
LongBench v2では、2段階のレシピが多文書推論のステージ1のギャップを埋めている。
- 参考スコア(独自算出の注目度): 2.1218260966433955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.
- Abstract(参考訳): 現実世界のアプリケーションは100k以上のトークンの処理をますます必要としているため、コンテキスト長と推論効率のギャップは重大なボトルネックとなっている。
コンテキスト圧縮は、タスクの正確性を維持しながら、プリフィルコストを削減する方法を提供する。
しかし、既存のトレーニングフリーの注意ベースの手法は、コード推論のような長文タスクの要求にかなりのギャップを残している。
本稿では,AttnCompの長文適応であるLongAttnCompについて紹介する。AttnCompは軽量なクロスアテンションスコアリング層を微調整し,トークンレベルチャンキング,トークン予算トップpアルゴリズム,位置整列,フォーマットに依存しないクエリパーサを導入している。
さらに、圧縮機の2段階の微調整レシピを設計する:Stage 1は、NIAHスタイルのデータから一般的な検索基盤を構築し、Stage 2は、より広範な長文タスクカバレッジのためのマルチホップおよび推論データで拡張する。
InfiniteBenchのCode-Debugでは、LongAttnCompはフルコンテキストの正確さと一致し、トレーニング不要のベースラインを大幅に上回り、3つのファミリーから4つのターゲットモデル間で転送される。
LongBench v2では、2段階のレシピが、Code-Debugのパフォーマンスを維持しながら、マルチドキュメント推論におけるステージ1のギャップを大きく埋めている。
関連論文リスト
- Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention [7.694795562178033]
大きな言語モデルを長い文脈にスケールすることは、注意の2次計算コストのために困難である。
まず、まず文脈をgistトークンに圧縮し、次に最も関連するgistを選択する。
これにより、コンパクトなグローバル表現と、微細なリーブされた証拠へのターゲットアクセスを組み合わせた単純な粗大な機構が得られる。
論文 参考訳(メタデータ) (2026-04-22T04:22:32Z) - Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning [47.87361916374891]
本稿では,チャンクワイズ圧縮と選択的メモリリコールに基づく,効率的な長文推論のためのフレームワークを提案する。
このフレームワークは、長い入力をチャンクに分割し、各チャンクを学習圧縮機を用いて圧縮されたメモリ表現に符号化する。
ピークGPUメモリ使用量の最大2倍の削減と,MemAgent上での6倍の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-02-09T08:33:11Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - LongCodeZip: Compress Long Context for Code Language Models [16.940525379087326]
LongCodeZipは、LLM(Large Language Models)用に設計された新しいプラグアンドプレイコード圧縮フレームワークである。
重要な情報を保持しながらコンテキストサイズを効果的に削減することで、LongCodeZipはLLMを現実世界の大規模コードシナリオに拡張することができる。
論文 参考訳(メタデータ) (2025-10-01T02:54:57Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。