論文の概要: ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs
- arxiv url: http://arxiv.org/abs/2602.03226v1
- Date: Tue, 03 Feb 2026 07:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.32044
- Title: ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs
- Title(参考訳): ATACompressor:LLMにおける高効率長期処理のための適応型タスク認識圧縮
- Authors: Xuancheng Li, Haitao Li, Yujia Zhou, Qingyao Ai, Yiqun Liu,
- Abstract要約: 本稿では,タスクの特定の要求に応じて圧縮を調整する適応タスク認識(ATACompressor)を提案する。
ATACompressorは、長いコンテキストのタスク関連部分のみを圧縮する選択エンコーダを使用し、不要なコンテンツを減らすとともに必須情報が保存されることを保証する。
我々はATACompressorを3つのQAデータセット上で評価する: HotpotQA, MSMARCO, SQUAD-showingは圧縮効率とタスク性能の両面で既存の手法より優れている。
- 参考スコア(独自算出の注目度): 28.55805086141996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inputs in large language models (LLMs) often suffer from the "lost in the middle" problem, where critical information becomes diluted or ignored due to excessive length. Context compression methods aim to address this by reducing input size, but existing approaches struggle with balancing information preservation and compression efficiency. We propose Adaptive Task-Aware Compressor (ATACompressor), which dynamically adjusts compression based on the specific requirements of the task. ATACompressor employs a selective encoder that compresses only the task-relevant portions of long contexts, ensuring that essential information is preserved while reducing unnecessary content. Its adaptive allocation controller perceives the length of relevant content and adjusts the compression rate accordingly, optimizing resource utilization. We evaluate ATACompressor on three QA datasets: HotpotQA, MSMARCO, and SQUAD-showing that it outperforms existing methods in terms of both compression efficiency and task performance. Our approach provides a scalable solution for long-context processing in LLMs. Furthermore, we perform a range of ablation studies and analysis experiments to gain deeper insights into the key components of ATACompressor.
- Abstract(参考訳): 大規模言語モデル(LLM)における長文入力は、臨界情報が過大な長さのために希薄化または無視される「中間の失われた」問題にしばしば悩まされる。
コンテキスト圧縮手法は入力サイズを小さくすることでこの問題に対処するが、既存の手法では情報保存と圧縮効率のバランスがとれている。
本稿では,タスクの要求に応じて動的に圧縮を調整する適応型タスク認識圧縮器(ATACompressor)を提案する。
ATACompressorは、長いコンテキストのタスク関連部分のみを圧縮する選択エンコーダを使用し、不要なコンテンツを減らすとともに必須情報が保存されることを保証する。
その適応アロケーションコントローラは、関連コンテンツの長さを認識し、リソース利用を最適化して圧縮率を調整する。
我々はATACompressorを3つのQAデータセット上で評価する: HotpotQA, MSMARCO, SQUAD-showingは圧縮効率とタスク性能の両面で既存の手法より優れている。
我々のアプローチはLLMの長文処理にスケーラブルなソリューションを提供する。
さらに,ATACompressorのキーコンポーネントについてより深い知見を得るために,様々なアブレーション研究と分析実験を実施している。
関連論文リスト
- Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective [21.41673002861847]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)を外部知識で効果的に構築する。
ソフトコンテクスト圧縮に関する最近の研究は、長い文書をコンパクトな埋め込みに符号化することでこの問題に対処することを目的としている。
本稿では,クエリ条件情報セレクタとしてのエンコーダの役割を再定義する,RAGのためのセレクタベースのソフト圧縮フレームワークであるSeleComを紹介する。
論文 参考訳(メタデータ) (2026-01-25T09:06:24Z) - AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation [27.480791258325066]
我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
論文 参考訳(メタデータ) (2025-09-22T08:18:50Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識更新のタイムラインと大規模言語モデルにおける応答の事実的正確性を高めるための有望なアプローチとして登場した。
RAG用に調整された文書圧縮への既存のアプローチは、しばしばタスクパフォーマンスを低下させる。
我々は、RAGにおけるロスレスコンテキスト圧縮の新しい手法であるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。
このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。
LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-07-16T06:16:06Z) - MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。
タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。
本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:02:53Z) - Understanding and Improving Information Preservation in Prompt Compression for LLMs [15.797246416590339]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。
本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:06:11Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。