Fugu-MT 論文翻訳(概要): CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs

論文の概要: CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs

arxiv url: http://arxiv.org/abs/2502.14925v1
Date: Wed, 19 Feb 2025 23:15:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 23:44:09.960754
Title: CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs
Title（参考訳）: CODEPROMPTZIP: LMを用いた符号化作業における検索拡張生成のためのコード固有プロンプト圧縮
Authors: Pengfei He, Shaowei Wang, Tse-Hsun Chen,
Abstract要約: Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。 RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
参考スコア（独自算出の注目度）: 6.936336826531964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) enhances coding tasks by incorporating retrieved code examples into prompts. However, lengthy prompts, often exceeding tens of thousands of tokens, introduce challenges related to limited context windows of language models (LMs) and high computational costs. Existing prompt compression techniques focus on natural language, lacking tailored solutions for code. To address the gap, we propose CodePromptZip, a framework that compresses code examples before integrating into RAG workflows. Our framework employs a type-aware, priority-driven strategy to construct training samples for training code compression model. By using program analysis, we identify token types (e.g., Identifier) and perform ablation analysis to rank their removal priorities based on their impact on task performance. We then train a small LM as the compressor on these samples, enabling flexible compression conditioned on specified ratios while minimizing performance degradation. Specially, the compressor is augmented with a copy mechanism, allowing tokens to be directly copied from the original code snippets. Evaluation results show that CodePromptZip surpasses SOTA entropy-based and distillation-based baselines, improving by 23.4%, 28.7%, and 8.7% over the best baseline for Assertion Generation, Bugs2Fix, and Code Suggestion, respectively.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。しかし、何万ものトークンを超える長いプロンプトは、言語モデル(LM)の限られたコンテキストウィンドウと高い計算コストに関連する課題を提起する。既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。このギャップに対処するため、我々は、RAGワークフローに統合する前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。本フレームワークでは,コード圧縮モデルをトレーニングするためのトレーニングサンプルを構築するために,タイプアウェア,優先度駆動型戦略を採用している。プログラム解析により,トークンの種類(例えば Identifier など)を識別し,タスクのパフォーマンスへの影響に基づいて,その除去優先度をランク付けするアブレーション解析を行う。次に, これらの試料の圧縮機として小型LMを訓練し, 性能劣化を最小限に抑えながら, 所定の比でフレキシブルな圧縮を可能にする。特に、圧縮機はコピー機構で拡張されており、トークンを元のコードスニペットから直接コピーすることができる。評価の結果、CodePromptZipはSOTAエントロピーベースのベースラインと蒸留ベースのベースラインを超え、それぞれAssertion Generation、Bugs2Fix、Code Suggestionの最高のベースラインよりも23.4%、28.7%、そして8.7%向上した。

関連論文リスト

NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models [63.271278137295006]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示す。 LLMは膨大な計算量とメモリ需要に悩まされており、リソース制約のある環境への展開を制限している。 Normalized Weight and Activation Guided Compression (Normalized Weight and Activation Guided Compression) をゼロショット形状保存圧縮アルゴリズムの統一フレームワークとして提案する。
論文参考訳（メタデータ） (2025-04-20T11:00:29Z)
LightThinker: Thinking Step-by-Step Compression [53.8069487638972]
提案するLightThinkerは,大規模言語モデルを用いて推論中の中間的思考を動的に圧縮する手法である。人間の認知プロセスにインスパイアされたLightThinkerは、思考ステップをコンパクトな表現に圧縮し、元の推論チェーンを捨てる。実験によると、LightThinkerは競合精度を維持しながら、ピークメモリ使用量と推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-21T16:57:22Z)
Better Prompt Compression Without Multi-Layer Perceptrons [33.53334153279698]
本稿では,エンコーダが本来の言語モデルのアーキテクチャを維持して有用な圧縮を実現する必要はないことを示す。言語モデルのトランスフォーマーブロックにおいて,多層パーセプトロン(MLP)層を除去した後に,プロンプト圧縮エンコーダを導入する。
論文参考訳（メタデータ） (2025-01-12T06:57:06Z)
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。トレーニング不要な固有空間低ランク近似(EoRA)を提案する。 EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles [49.65811277223873]
Style-Compressは、より小さな言語モデルを適用して、新たなタスクでより大きなモデルのプロンプトを、追加のトレーニングなしで圧縮する軽量フレームワークである。提案手法は,実効圧縮プロンプトを,スタイルのバリエーションやコンテキスト内学習を通じて,タスク固有の実演として反復的に生成し,選択する。 Style-Compressは、オリジナルのプロンプト再構成、テキスト要約、マルチホップQA、CoT推論の4つのタスクで2つのベースライン圧縮モデルを上回っている。
論文参考訳（メタデータ） (2024-10-17T21:35:49Z)
LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。本質的な情報を保持しながら、即時長を短縮する。既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文参考訳（メタデータ） (2024-09-01T22:09:20Z)
Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文参考訳（メタデータ） (2024-07-22T09:40:13Z)
Say More with Less: Understanding Prompt Learning Behaviors through Gist Compression [39.233017243612025]
大規模言語モデル(LLM)は、入力コンテキストがユーザの意図に沿った出力を生成するために、長いプロンプトを必要とする。本稿では,素早い解釈と工学を支援するプロンプトを圧縮する新しい手法を提案する。 Gist-COCOはエンコーダ-デコーダベースの言語モデルを採用し、その後追加のエンコーダをプラグインモジュールとして組み込んでgistトークンを使用してプロンプトを圧縮する。
論文参考訳（メタデータ） (2024-02-25T11:07:08Z)
Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文参考訳（メタデータ） (2024-01-07T11:57:40Z)
Hot or Cold? Adaptive Temperature Sampling for Code Generation with Large Language Models [54.72004797421481]
コード生成に特化したデコード戦略を検討するために、最初の体系的な研究を行う。以上の知見に触発されて,適応温度(AdapT)サンプリング法を提案する。その結果,AdapTサンプリングは最先端の復号化戦略を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-06T06:27:33Z)
Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。 KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。 KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文参考訳（メタデータ） (2023-03-31T15:44:13Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。