論文の概要: Predicting LLM Output Length via Entropy-Guided Representations
- arxiv url: http://arxiv.org/abs/2602.11812v1
- Date: Thu, 12 Feb 2026 10:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.777564
- Title: Predicting LLM Output Length via Entropy-Guided Representations
- Title(参考訳): エントロピー誘導表現によるLLM出力長予測
- Authors: Huanyi Xie, Yubin Chen, Liangyu Wang, Lijie Hu, Di Wang,
- Abstract要約: 本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
- 参考スコア(独自算出の注目度): 13.351384070796747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-tailed distribution of sequence lengths in LLM serving and reinforcement learning (RL) sampling causes significant computational waste due to excessive padding in batched inference. Existing methods rely on auxiliary models for static length prediction, but they incur high overhead, generalize poorly, and fail in stochastic "one-to-many" sampling scenarios. We introduce a lightweight framework that reuses the main model's internal hidden states for efficient length prediction. Our framework features two core components: 1) Entropy-Guided Token Pooling (EGTP), which uses on-the-fly activations and token entropy for highly accurate static prediction with negligible cost, and 2) Progressive Length Prediction (PLP), which dynamically estimates the remaining length at each decoding step to handle stochastic generation. To validate our approach, we build and release ForeLen, a comprehensive benchmark with long-sequence, Chain-of-Thought, and RL data. On ForeLen, EGTP achieves state-of-the-art accuracy, reducing MAE by 29.16\% over the best baseline. Integrating our methods with a length-aware scheduler yields significant end-to-end throughput gains. Our work provides a new technical and evaluation baseline for efficient LLM inference.
- Abstract(参考訳): LLMサービスおよび強化学習(RL)サンプリングにおける配列長の長期分布は、バッチ推論における過剰なパディングにより、かなりの計算無駄を引き起こす。
既存の手法は静的長予測の補助モデルに頼っているが、それらは高いオーバーヘッドを発生させ、一般化が悪く、確率的な「1対多」サンプリングシナリオで失敗する。
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
私たちのフレームワークには2つのコアコンポーネントがあります。
1)オンザフライアクティベーションとトークンエントロピーを併用したエントロピー誘導型トークンポーリング(EGTP)
2)プログレッシブ長予測(PLP)は,各復号ステップの残りの長さを動的に推定し,確率生成を処理する。
このアプローチを検証するために、長いシーケンス、Chain-of-Thought、RLデータを備えた包括的なベンチマークであるForeLenを構築し、リリースします。
ForeLen では、EGTP は最先端の精度を達成し、最高のベースライン上で MAE を 29.16 % 削減する。
メソッドを長さ対応スケジューラと統合すると、エンドツーエンドのスループットが大幅に向上する。
我々の研究は、効率的なLLM推論のための新しい技術および評価ベースラインを提供する。
関連論文リスト
- Improving Long-term Autoregressive Spatiotemporal Predictions: A Proof of Concept with Fluid Dynamics [10.71350538032054]
複雑なシステムでは、エラーの蓄積によって長期的な精度が劣化することが多い。
我々はPushForwardフレームワークを提案する。PushForwardフレームワークは、マルチステップ学習を実現しつつ、ワンステップのトレーニングを継続する。
SPFはモデル予測から補足的データセットを構築し、取得戦略を通じて真実と組み合わせる。
論文 参考訳(メタデータ) (2025-08-25T23:51:18Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Ignite Forecasting with SPARK: An Efficient Generative Framework for Refining LLMs in Temporal Knowledge Graph Forecasting [13.402856325579236]
本稿では,TKG予測における大規模言語モデルの精錬のためのシーケンスレベルのプロキシフレームワークであるSPARKを紹介する。
推論時間アルゴリズムにインスパイアされたSPARKは、2つの重要なイノベーションを通じてコスト効率の良いプラグアンドプレイソリューションを提供する。
多様なデータセットにわたる実験は、SPARKの予測性能、堅牢な一般化能力、高効率を検証している。
論文 参考訳(メタデータ) (2025-03-27T03:02:02Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [7.408649506385476]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。