論文の概要: DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression
- arxiv url: http://arxiv.org/abs/2507.11942v1
- Date: Wed, 16 Jul 2025 06:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.249587
- Title: DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression
- Title(参考訳): DAC:タスクに依存しないプロンプト圧縮のための動的注意認識アプローチ
- Authors: Yi Zhao, Zuchao Li, Hai Zhao, Baoyuan Qi, Guoming Liu,
- Abstract要約: タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。
このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。
LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
- 参考スコア(独自算出の注目度): 63.83422894663496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic prompt compression leverages the redundancy in natural language to reduce computational overhead and enhance information density within prompts, especially in long-context scenarios. Existing methods predominantly rely on information entropy as the metric to compress lexical units, aiming to achieve minimal information loss. However, these approaches overlook two critical aspects: (i) the importance of attention-critical tokens at the algorithmic level, and (ii) shifts in information entropy during the compression process. Motivated by these challenges, we propose a dynamic attention-aware approach for task-agnostic prompt compression (DAC). This approach effectively integrates entropy and attention information, dynamically sensing entropy shifts during compression to achieve fine-grained prompt compression. Extensive experiments across various domains, including LongBench, GSM8K, and BBH, show that DAC consistently yields robust and substantial improvements across a diverse range of tasks and LLMs, offering compelling evidence of its efficacy.
- Abstract(参考訳): タスクに依存しないプロンプト圧縮は、自然言語の冗長性を利用して計算オーバーヘッドを減らし、プロンプト内の情報密度を高める。
既存の手法は主に、情報損失を最小限に抑えるために、語彙単位を圧縮する計量として情報エントロピーに依存している。
しかし、これらのアプローチは2つの重要な側面を見落としている。
一 アルゴリズムレベルでの注意クリティカルトークンの重要性、及び
(ii)圧縮過程における情報エントロピーの変化
これらの課題に乗じて,タスクに依存しないプロンプト圧縮(DAC)のための動的注意認識手法を提案する。
このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。
ロングベンチ、GSM8K、BBHなど、様々な領域にわたる大規模な実験により、DACは様々なタスクやLSMに対して一貫して堅牢で実質的な改善をもたらし、その効果の説得力のある証拠を提供することが示された。
関連論文リスト
- Adaptive Inference-Time Scaling via Cyclic Diffusion Search [68.58892778987936]
適応的推論時間スケーリング-動的に計算量を調整するという課題について紹介する。
本稿では,適応型双方向サイクル拡散(ABCD)を提案する。
ABCDは、探索深度と終了を適応的に制御しながら、双方向拡散サイクルを通じて出力を洗練する。
論文 参考訳(メタデータ) (2025-05-20T07:31:38Z) - Dynamic Compressing Prompts for Efficient Inference of Large Language Models [38.604760935983364]
大規模言語モデル(LLM)は、高度なプロンプト技術のために、様々なタスクで優れたパフォーマンスを示している。
プロンプト圧縮は簡単な解決策だが、既存の手法では、重要な情報を保持し、状況の変化に適応し、異なるタスクにまたがって効果的を維持するという課題に直面している。
本手法は,性能を最大限に保ちつつ,プロンプトトークンの数を削減する。
論文 参考訳(メタデータ) (2025-04-15T09:20:45Z) - Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。
本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:06:11Z) - Prompt Compression for Large Language Models: A Survey [31.578484271031908]
本稿では, ハードプロンプト法とソフトプロンプト法に分類した, プロンプト圧縮技術の概要について述べる。
また, 各種急速圧縮手法の下流適応について検討した。
論文 参考訳(メタデータ) (2024-10-16T09:13:23Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から189%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。