Fugu-MT 論文翻訳(概要): TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning

論文の概要: TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.13035v2
Date: Mon, 23 Sep 2024 07:40:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 12:14:24.710826
Title: TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning
Title（参考訳）: TACO-RL:強化学習によるタスク認識プロンプト圧縮最適化
Authors: Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue Zhang, Qianhui Wu, Victor Rühle,
Abstract要約: GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
参考スコア（独自算出の注目度）: 11.167198972934736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing prevalence of large language models (LLMs) such as GPT-4 in various applications has led to a surge in the size of prompts required for optimal performance, leading to challenges in computational efficiency. Prompt compression aims to reduce the inference cost by minimizing input tokens without compromising on the task performance. However, existing prompt compression techniques either rely on sub-optimal metrics such as information entropy or model it as a task-agnostic token classification problem that fails to capture task-specific information. To address these issues, we propose a novel and efficient reinforcement learning (RL) based task-aware prompt compression method. To ensure low latency requirements, we leverage existing Transformer encoder-based token classification model while guiding the learning process with task-specific reward signals using lightweight REINFORCE algorithm. We evaluate the performance of our method on three diverse and challenging tasks including text summarization, question answering and code summarization. We demonstrate that our RL-guided compression method improves the task performance by 8% - 260% across these three scenarios over state-of-the-art compression techniques while satisfying the same compression rate and latency requirements.
Abstract（参考訳）: GPT-4のような大規模言語モデル(LLM)が様々なアプリケーションで普及し、最適性能に必要なプロンプトのサイズが増加し、計算効率の課題がもたらされた。 Prompt圧縮は、タスクのパフォーマンスを損なうことなく入力トークンを最小化することで、推論コストを削減することを目的としている。しかし、既存のプロンプト圧縮技術は、情報エントロピーのような準最適メトリクスに依存するか、タスク固有の情報を捕捉できないタスクに依存しないトークン分類問題としてモデル化する。これらの課題に対処するために,RLに基づくタスク認識プロンプト圧縮手法を提案する。低レイテンシ要求を実現するため,既存のTransformerエンコーダベースのトークン分類モデルを用いて,軽量REINFORCEアルゴリズムを用いて,タスク固有の報酬信号を用いて学習プロセスを導出する。本稿では,テキスト要約,質問応答,コード要約という3つの課題に対して,本手法の性能評価を行った。 RL誘導圧縮法は, 圧縮速度と遅延条件を満足しながら, これら3つのシナリオに対して, タスク性能を8%から260%向上させることを実証した。

関連論文リスト

DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression [63.83422894663496]
タスク非依存型プロンプト圧縮(DAC)のための動的注意認識手法を提案する。このアプローチは、エントロピー情報とアテンション情報を効果的に統合し、圧縮中のエントロピーシフトを動的に検知し、きめ細かいプロンプト圧縮を実現する。 LongBench、GSM8K、BBHを含む様々な領域にわたる大規模な実験は、DACが一貫して堅牢で実質的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2025-07-16T06:16:06Z)
Dynamic Compressing Prompts for Efficient Inference of Large Language Models [38.604760935983364]
大規模言語モデル(LLM)は、高度なプロンプト技術のために、様々なタスクで優れたパフォーマンスを示している。プロンプト圧縮は簡単な解決策だが、既存の手法では、重要な情報を保持し、状況の変化に適応し、異なるタスクにまたがって効果的を維持するという課題に直面している。本手法は,性能を最大限に保ちつつ,プロンプトトークンの数を削減する。
論文参考訳（メタデータ） (2025-04-15T09:20:45Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T20:06:11Z)
Task-agnostic Prompt Compression with Context-aware Sentence Embedding and Reward-guided Task Descriptor [16.830389144259584]
Task-Agnostic Prompt Compression (TPC)は、入力質問やテンプレートを必要とせずにタスクやドメイン間の圧縮を一般化する新しいフレームワークである。 TPCは、コンテキストとクエリペアのキュレートされたデータセットに基づいてトレーニングされたタスク記述子を使用して、コンテキスト関連タスク記述を生成する。我々は,LongBenchおよびZeroSCROLLSベンチマークにおいて,既存の最先端手法よりも優れた3つのモデルサイズ(Base, Large, Huge)を導入する。
論文参考訳（メタデータ） (2025-02-19T02:16:29Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文参考訳（メタデータ） (2024-10-15T17:05:25Z)
From Reading to Compressing: Exploring the Multi-document Reader for Prompt Compression [9.5823848981136]
大規模言語モデル(LLM)は、高度なプロンプト技術を用いて、大幅な性能向上を実現している。プロンプト圧縮はこれらの問題を緩和するために提案されているが、グローバルコンテキストを捕捉し、圧縮機を効果的に訓練する際の課題に直面している。
論文参考訳（メタデータ） (2024-10-05T12:27:47Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。本質的な情報を保持しながら、即時長を短縮する。既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文参考訳（メタデータ） (2024-09-01T22:09:20Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文参考訳（メタデータ） (2024-01-07T11:57:40Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)
Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文参考訳（メタデータ） (2021-09-07T17:29:34Z)
An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文参考訳（メタデータ） (2021-08-19T07:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。