論文の概要: Robust Length Prediction: A Perspective from Heavy-Tailed Prompt-Conditioned Distributions
- arxiv url: http://arxiv.org/abs/2604.07931v1
- Date: Thu, 09 Apr 2026 07:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.781218
- Title: Robust Length Prediction: A Perspective from Heavy-Tailed Prompt-Conditioned Distributions
- Title(参考訳): ロバスト長予測:重管型プロンプト導電率分布からの展望
- Authors: Jing Wang, Yu-Yang Qian, Ke Xue, Chao Qian, Peng Zhao, Zhi-Hua Zhou,
- Abstract要約: 既存の出力長予測法は、プロンプトのみの予測では信頼性が低い。
本稿では,同じプロンプトからトレーニング対象を構成するプロンプト条件付き長さ分布法を提案する。
さまざまなシナリオにわたる実験では、予測品質が一貫した向上を示している。
- 参考スコア(独自算出の注目度): 61.56973419225008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Output-length prediction is important for efficient LLM serving, as it directly affects batching, memory reservation, and scheduling. For prompt-only length prediction, most existing methods use a one-shot sampled length as the label, implicitly treating each prompt as if it had one true target length. We show that this is unreliable: even under a fixed model and decoding setup, the same prompt induces a \emph{prompt-conditioned output length distribution}, not a deterministic scalar, and this distribution is consistent with \emph{heavy-tailed} behavior. Motivated by this, we cast length prediction as robust estimation from heavy-tailed prompt-conditioned length distributions. We propose prompt-conditioned length distribution (ProD) methods, which construct training targets from multiple independent generations of the same prompt. Two variants are developed to reuse the served LLM's hidden states: \mbox{ProD-M}, which uses a median-based target for robust point prediction, and ProD-D, which uses a distributional target that preserves prompt-conditioned uncertainty. We provide theoretical justifications by analyzing the estimation error under a surrogate model. Experiments across diverse scenarios show consistent gains in prediction quality.
- Abstract(参考訳): 出力長予測は、バッチ処理、メモリ予約、スケジューリングに直接影響を与えるため、効率的なLLMサービスにとって重要である。
プロンプトのみの長さ予測では、既存のほとんどのメソッドは1発のサンプル長をラベルとして使用し、各プロンプトが真のターゲット長の1つであるかのように暗黙的に扱う。
固定モデルと復号化設定の下でも、同じプロンプトが決定論的スカラーではなく \emph{prompt- Conditioned output length distribution} を誘導し、この分布は \emph{heavy-tailed} の振る舞いと一致する。
そこで我々は,重み付きプロンプト条件付き長さ分布のロバストな推定法として長さ予測を行った。
本稿では,同じプロンプトの複数の独立世代からトレーニングターゲットを構築するプロンプト条件付き長さ分布(ProD)手法を提案する。
2つの変種がLLMの隠された状態を再利用するために開発されている: \mbox{ProD-M}, ProD-D, ProD-D, ProD-D。
代理モデルに基づく推定誤差を解析して理論的に正当化する。
さまざまなシナリオにわたる実験では、予測品質が一貫した向上を示している。
関連論文リスト
- Scheduling LLM Inference with Uncertainty-Aware Output Length Predictions [16.877407702260243]
既存のメソッドは通常、スケジューリングを容易にするためにリクエスト毎に単一の出力長を予測する。
SJFスケジューリングにおける出力長の代替として,Tail Inflated expectation (TIE)を提案する。
TIEは、オンライン推論のために、トーケン毎のレイテンシを2.31ドル削減し、オフラインデータ生成のために、スループットを1.42ドル改善する。
論文 参考訳(メタデータ) (2026-04-01T05:31:21Z) - Adaptively Robust LLM Inference Optimization under Prediction Uncertainty [9.541681114575812]
本稿では,Large Language Model (LLM) 推論スケジューリングを最適化し,全遅延を最小化する問題について検討する。
LLM推論の鍵となる課題は、実行時の長さが分かる一方で、メモリ使用量や処理時間に重大な影響を及ぼす出力長が不明であることである。
本稿では,各要求に対して間隔分類(min-max range)を提供すると仮定して,機械学習を利用して出力長を予測するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:55:26Z) - Draft Model Knows When to Stop: Self-Verification Speculative Decoding for Long-Form Generation [64.59292053188264]
主流SDベンチマークと推論重ベンチマークの実験結果から,SVIPの優れた性能が示された。
SVIPは、ドラフトエントロピーを参照して、ドラフトシーケンスの長さを適応的に決定する、投機的復号システムのためのトレーニング不要な動的長さポリシーである。
論文 参考訳(メタデータ) (2024-11-27T15:53:17Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。