Fugu-MT 論文翻訳(概要): Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference

論文の概要: Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference

arxiv url: http://arxiv.org/abs/2501.12959v1
Date: Wed, 22 Jan 2025 15:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:14.058605
Title: Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference
Title（参考訳）: 長期変圧器推論のための評価器ヘッドを用いた効率的なプロンプト圧縮
Authors: Weizhi Fei, Xueyan Niu, Guoqing Xie, Yingqing Liu, Bo Bai, Wei Han,
Abstract要約: 長文入力は大規模言語モデル(LLM)の有効活用に不可欠である圧縮されたプロンプト内にキー情報を保持できる,効率的な訓練不要なプロンプト圧縮手法を提案する。我々は,LLMの入力プロンプトを高速に「スキムスルー」できる評価器ヘッドベースプロンプト圧縮を開発した。
参考スコア（独自算出の注目度）: 6.699062502635993
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Although applications involving long-context inputs are crucial for the effective utilization of large language models (LLMs), they also result in increased computational costs and reduced performance. To address this challenge, we propose an efficient, training-free prompt compression method that retains key information within compressed prompts. We identify specific attention heads in transformer-based LLMs, which we designate as evaluator heads, that are capable of selecting tokens in long inputs that are most significant for inference. Building on this discovery, we develop EHPC, an Evaluator Head-based Prompt Compression method, which enables LLMs to rapidly "skim through" input prompts by leveraging only the first few layers with evaluator heads during the pre-filling stage, subsequently passing only the important tokens to the model for inference. EHPC achieves state-of-the-art results across two mainstream benchmarks: prompt compression and long-context inference acceleration. Consequently, it effectively reduces the complexity and costs associated with commercial API calls. We further demonstrate that EHPC attains competitive results compared to key-value cache-based acceleration methods, thereby highlighting its potential to enhance the efficiency of LLMs for long-context tasks.
Abstract（参考訳）: 長文入力を含むアプリケーションは、大規模言語モデル(LLM)の有効利用には不可欠であるが、計算コストの増大と性能の低下をもたらす。この課題に対処するために、圧縮されたプロンプト内のキー情報を保持する効率的な訓練不要なプロンプト圧縮手法を提案する。提案手法では,推定に最も重要となる長入力でトークンを選択することが可能な,トランスフォーマーベースLPMの特定の注意ヘッドを評価器ヘッドとして指定する。この発見に基づいて,評価用ヘッドをベースとしたPmpt圧縮手法であるEHPCを開発した。この手法により,プレフィル時に,評価用ヘッドを持つ最初の数層のみを活用することで,LLMの入力プロンプトを高速に"スキムスルー"することが可能となり,その後,推論モデルに重要なトークンのみを渡すことができる。 EHPCは2つの主要なベンチマーク、即時圧縮と長期コンテキスト推論アクセラレーションで最先端の結果を達成する。これにより、商用API呼び出しに関連する複雑さとコストを効果的に削減できる。さらに、EHPCは、キー値キャッシュベースの加速度法と比較して、競合する結果が得られることを実証し、長文タスクにおけるLLMの効率を高める可能性を強調した。

関連論文リスト

TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。 TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文参考訳（メタデータ） (2025-11-17T10:38:56Z)
URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。 URaGは,計算オーバーヘッドを44～56%削減し,最先端性能を実現する。
論文参考訳（メタデータ） (2025-11-13T17:54:09Z)
Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。 LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文参考訳（メタデータ） (2025-06-16T03:00:40Z)
Lag-Relative Sparse Attention In Long Context Training [8.365610885641276]
本稿では,LagKV圧縮法で固定されたLag-Relative Sparse Attention(LRSA)を長期学習後に提案する。本手法はチャンク・バイ・チャンク・プリフィルを行い, 固定サイズのラグウィンドウにおいて, 最上位のキー値ペアを選択する。
論文参考訳（メタデータ） (2025-06-13T06:49:53Z)
Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models [52.538586230181814]
近年のLarge Language Models (LLMs) を用いた組合せ最適化問題の解法に関する研究プロンプトにおけるタスク固有の知識の欠如は、LLMが不特定な探索方向を提供し、良好なパフォーマンスの導出を妨げることがしばしばある。本稿では,Herculesアルゴリズムを提案する。このアルゴリズムは設計したコア抽象化プロンプティング(CAP)法を利用して,コアコンポーネントをエリートHGから抽象化し,プリミティブに事前知識として組み込む。
論文参考訳（メタデータ） (2025-05-19T02:20:46Z)
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [8.926050258264844]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。小さなLMの生成過程における幻覚の蓄積と伝播を計算する。検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文参考訳（メタデータ） (2025-05-05T01:45:56Z)
PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文参考訳（メタデータ） (2025-04-23T09:53:01Z)
PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference [23.828853446344663]
生成品質を維持しながら推論効率を向上させる訓練不要な方法であるPromptDistillを提案する。 PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
論文参考訳（メタデータ） (2025-03-30T01:47:23Z)
Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T20:06:11Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文参考訳（メタデータ） (2025-03-11T02:27:37Z)
Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。 6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文参考訳（メタデータ） (2025-02-16T05:50:12Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
Perception Compressor:A training-free prompt compression method in long context scenarios [17.720102137585503]
パーセプション(Perception)は、大規模言語モデルのトレーニング不要なプロンプト圧縮手法である。既存のメソッドのマージンを大きく上回り、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-09-28T07:13:33Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Anchor-based Large Language Models [33.86392289481657]
本研究ではアンカーベースの自己アテンションネットワーク(AnSAN)とアンカーベースの推論戦略を利用するアンカーベースのLSM(AnLLM)を紹介する。 AnLLMも同様の精度を維持し、最大99%のキー/バリューキャッシュの削減、最大3.5倍の高速推論を実現している。
論文参考訳（メタデータ） (2024-02-12T12:48:02Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。 Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-10-02T03:12:06Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。