論文の概要: Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA
- arxiv url: http://arxiv.org/abs/2605.17932v1
- Date: Mon, 18 May 2026 06:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.927502
- Title: Prompt Compression in Diffusion Large Language Models: Evaluating LLMLingua-2 on LLaDA
- Title(参考訳): 拡散大言語モデルにおけるプロンプト圧縮:LLaDA上でのLLMLingua-2の評価
- Authors: Sterling Huang, Abigayle Brown, Jiyoo Noh, Jiakang Xu, Wantong Huo, Kaung Myat Kyaw, Jonathan Chan,
- Abstract要約: 本研究では,LLMLingua-2を用いた拡散大言語モデル (DLLM) への高速圧縮転送が有効であるかどうかを検討する。
我々は,GSM8K,DUC2004,ShareGPTの圧縮性能を,約2$times$圧縮比でデータセット当たり250プロンプトを用いて評価した。
- 参考スコア(独自算出の注目度): 0.8135412538980287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt compression reduces inference cost and context length in large language models, but prior evaluations focus primarily on autoregressive architectures. This study investigates whether prompt compression transfers effectively to diffusion large language models (DLLMs) using LLMLingua-2, specifically the 8B-parameter DLLM LLaDA. We evaluate compression performance on GSM8K, DUC2004, and ShareGPT using 250 prompts per dataset at an approximate 2$\times$ compression ratio, across mathematical reasoning, prompt reconstruction, and summarization tasks. Outputs generated from original prompts, compressed prompts, reconstructed prompts, and reconstructed-prompt reasoning were compared using exact-match accuracy, BLEU, ROUGE, and BERTScore. Results show that semantic preservation does not necessarily imply stable downstream behavior in diffusion models. Summarization tasks remained comparatively robust under compression, while mathematical reasoning degraded substantially despite high semantic similarity scores. Reconstruction experiments further showed that semantically similar prompts may still omit reasoning-critical information required for stable denoising. Across tasks, BERTScore recall was consistently lower than precision, suggesting that compression failures are primarily driven by information omission rather than semantic drift. These findings indicate that prompt compression methods designed for autoregressive models do not transfer uniformly to diffusion large language models and motivate the development of diffusion-aware compression strategies.
- Abstract(参考訳): プロンプト圧縮は、大きな言語モデルにおける推論コストと文脈長を削減するが、事前評価は主に自己回帰アーキテクチャに焦点を当てている。
本研究では,LLMLingua-2,特に8BパラメータDLLM LLaDAを用いた拡散大言語モデル(DLLM)への高速圧縮転送について検討した。
本稿では,GSM8K,DUC2004,ShareGPTの圧縮性能を,約2$\times$圧縮比で評価した。
元のプロンプト、圧縮プロンプト、再構成プロンプト、再構成されたプロンプト推論から生成された出力を、正確なマッチング精度、BLEU、ROUGE、BERTScoreを用いて比較した。
以上の結果から,拡散モデルにおいて意味的保存が必ずしも下流の挙動を安定させるとは限らないことが示唆された。
要約タスクは圧縮下で比較的頑健であり、数学的推論は意味的類似性スコアが高いにもかかわらず著しく低下した。
レコンストラクション実験により、意味論的に類似したプロンプトは、安定な復調に必要な推論クリティカルな情報を省略する可能性があることが示された。
タスク全体にわたってBERTScoreのリコールは精度よりも一貫して低く、圧縮の失敗は主にセマンティックドリフトではなく情報欠落によって引き起こされていることを示唆している。
これらの結果から, 自己回帰モデル用に設計された即時圧縮手法は, 拡散型大言語モデルに一様に伝達せず, 拡散型圧縮戦略の開発を動機付けていることが明らかとなった。
関連論文リスト
- D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation [78.32916244416033]
Supervised Fine-Tuning (SFT) はタスク固有の大規模言語モデル (LLM) の開発を加速するが、細調整モデルの増加によってメモリオーバーヘッドが大幅に増大する。
本稿ではDQRELO(Delta Compression via Quantization and Residual Low-Rank)を提案する。
粗い1ビットの量子化を組み合わせ、デルタの支配的な構造を捉える。
論文 参考訳(メタデータ) (2026-04-18T09:52:18Z) - Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models [0.0]
大規模言語モデルは強力な生成性能を提供するが、膨大なパラメータ数、メモリ使用量、復号遅延のコストがかかる。
動的LLM実行のための統合圧縮センシング誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T14:27:24Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - What Do Compressed Multilingual Machine Translation Models Forget? [102.50127671423752]
平均BLEUはわずかに減少するが,表現不足言語の性能は著しく低下する。
圧縮は,高リソース言語においても,本質的な性差や意味バイアスを増幅することを示した。
論文 参考訳(メタデータ) (2022-05-22T13:54:44Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。