論文の概要: Cross-Family Speculative Prefill: Training-Free Long-Context Compression with Small Draft Models
- arxiv url: http://arxiv.org/abs/2603.02631v1
- Date: Tue, 03 Mar 2026 05:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.659348
- Title: Cross-Family Speculative Prefill: Training-Free Long-Context Compression with Small Draft Models
- Title(参考訳): クロスファミリック・プレフィル:小さなドラフトモデルによる訓練不要な長期圧縮
- Authors: Shubhangi Upasani, Ravi Shanker Raju, Bo Li, Mengmeing Ji, John Long, Chen Wu, Urmish Thakker, Guangtao Wang,
- Abstract要約: そこで本研究では、軽量なドラフトモデルを用いて、異なるファミリーのターゲットモデルの即時圧縮を行うクロスファミリー投機プレフィルについて検討する。
注意に基づくトークン重要度推定は、異なるモデルファミリ間で確実に伝達される。
その結果、投機的プリフィルは主にタスクの先行とセマンティック構造に依存し、一般化可能なプロンプト圧縮プリミティブとして機能することが示唆された。
- 参考スコア(独自算出の注目度): 6.881296865222651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt length is a major bottleneck in agentic large language model (LLM) workloads, where repeated inference steps and multi-call loops incur substantial prefill cost. Recent work on speculative prefill demonstrates that attention-based token importance estimation can enable training-free prompt compression, but this assumes the existence of a draft model that shares the same tokenizer as the target model. In practice, however, agentic pipelines frequently employ models without any smaller in-family draft model. In this work, we study cross-family speculative prefill, where a lightweight draft model from one model family is used to perform prompt compression for a target model from a different family. Using the same speculative prefill mechanism as prior work, we evaluate a range of cross-family draft-target combinations, including Qwen, LLaMA, and DeepSeek models. Across a broad diversity of tasks, we find that attention-based token importance estimation transfers reliably across different model families despite differences in model architectures and tokenizers between draft and target models. Cross-model prompt compression largely retains 90~100% of full-prompt baseline performance and, in some cases, slightly improves accuracy due to denoising effects, while delivering substantial reductions in time to first token (TTFT). These results suggest that speculative prefill depends mainly on task priors and semantic structure, thus serving as a generalizable prompt compression primitive. We discuss the implications of our findings for agentic systems, where repeated long-context inference and heterogeneous model stacks make cross-model prompt compression both necessary and practical.
- Abstract(参考訳): Prompt長はエージェント型大規模言語モデル(LLM)ワークロードの大きなボトルネックであり、繰り返し推論ステップとマルチコールループが相当なプリフィルコストを発生させる。
投機的プリフィルに関する最近の研究は、注意に基づくトークンの重要度推定がトレーニング不要な即時圧縮を可能にすることを示したが、これはターゲットモデルと同じトークン化子を共有するドラフトモデルの存在を前提としている。
しかし実際には、エージェントパイプラインは小さな家族内ドラフトモデルなしでモデルを使うことが多い。
本研究では、1つのモデルファミリーからの軽量なドラフトモデルを用いて、異なるモデルのターゲットモデルの即時圧縮を行うクロスファミリー投機前処理について検討する。
従来の作業と同一の投機的プリフィル機構を用いて,Qwen,LLaMA,DeepSeekモデルを含む,クロスファミリーのドラフトとターゲットの組み合わせを評価した。
タスクの多種多様さにおいて、モデルアーキテクチャとターゲットモデル間のトークン化要因の違いにもかかわらず、注意に基づくトークンの重要度推定が、異なるモデルファミリ間で確実に伝達されることが判明した。
クロスモデルプロンプト圧縮は、フルプロンプトベースライン性能の90~100%を保持し、場合によってはデノナイジング効果による精度をわずかに向上する一方で、第1トークン(TTFT)への大幅な削減を実現している。
これらの結果は、投機的プリフィルは主にタスクの先行と意味構造に依存し、一般化可能なプロンプト圧縮プリミティブとして機能することを示唆している。
本稿では, エージェントシステムにおいて, 長期コンテキスト推論と異種モデルスタックを繰り返し行うことにより, クロスモデル・プロンプト圧縮の必要性と実用性を両立させる手法について考察する。
関連論文リスト
- Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Federated Topic Model and Model Pruning Based on Variational Autoencoder [14.737942599204064]
フェデレートされたトピックモデリングにより、複数のパーティがデータのプライバシを保護しながらモデルを共同でトレーニングできる。
本稿では,各ノードのプライバシを確保しつつ,フェデレートされたトピックモデルを確立する手法を提案し,ニューラルネットワークモデルプルーニングを用いてモデルを高速化する。
実験結果から,フェデレートされたトピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-11-01T06:00:14Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Model Compression for Dynamic Forecast Combination [9.281199058905017]
動的予測アンサンブルを個々のモデルに圧縮すると、同様の予測性能が得られることを示す。
また,平均ランクが最も高い圧縮個々モデルは規則に基づく回帰モデルであることを示した。
論文 参考訳(メタデータ) (2021-04-05T09:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。