論文の概要: Hidden States as Early Signals: Step-level Trace Evaluation and Pruning for Efficient Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2601.09093v1
- Date: Wed, 14 Jan 2026 02:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.231223
- Title: Hidden States as Early Signals: Step-level Trace Evaluation and Pruning for Efficient Test-Time Scaling
- Title(参考訳): 初期信号としての隠れ状態: 効率的なテスト時間スケーリングのためのステップレベルのトレース評価とプルーニング
- Authors: Zhixiang Liang, Beichen Huang, Zheng Wang, Minjia Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、複数のトレースを生成することによって、テスト時間スケーリングを通じて推論能力を向上することができる。
長い推論トレースと多重サンプリングの組み合わせは、相当な計算とエンドツーエンドのレイテンシをもたらす。
隠れ状態を用いて推論ステップを評価する新しいプルーニングフレームワークであるStep-level Trace Evaluation and Pruningを提案する。
- 参考スコア(独自算出の注目度): 19.080366193748127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can enhance reasoning capabilities through test-time scaling by generating multiple traces. However, the combination of lengthy reasoning traces with multiple sampling introduces substantial computation and high end-to-end latency. Prior work on accelerating this process has relied on similarity-based or confidence-based pruning, but these signals do not reliably indicate trace quality. To address these limitations, we propose STEP: Step-level Trace Evaluation and Pruning, a novel pruning framework that evaluates reasoning steps using hidden states and dynamically prunes unpromising traces during generation. We train a lightweight step scorer to estimate trace quality, and design a GPU memory-aware pruning strategy that triggers pruning as the GPU memory is saturated by KV cache to reduce end-to-end latency. Experiments across challenging reasoning benchmarks demonstrate that STEP reduces end-to-end inference latency by 45%-70% on average compared to self-consistency while also improving reasoning accuracy. Our code is released at: https://github.com/Supercomputing-System-AI-Lab/STEP
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のトレースを生成することによって、テスト時間スケーリングを通じて推論能力を向上することができる。
しかし、長い推論トレースと多重サンプリングの組み合わせは、相当な計算とエンドツーエンドのレイテンシをもたらす。
この過程を加速する以前の研究は、類似性に基づくか、信頼に基づくプルーニングに依存してきたが、これらの信号はトレースの品質を確実に示すものではない。
隠れ状態を用いて推論ステップを評価し,生成中のトレースを動的に生成する新しいプルーニングフレームワークであるStep-level Trace Evaluation and Pruningを提案する。
我々は、トレース品質を推定するために軽量ステップスコアラを訓練し、GPUメモリがKVキャッシュによって飽和し、エンドツーエンドのレイテンシを低減するため、プルーニングをトリガーするGPUメモリ対応プルーニング戦略を設計する。
挑戦的な推論ベンチマークによる実験では、STEPは自己整合性よりも平均して、エンドツーエンドの推論遅延を45%-70%削減し、推論精度も向上している。
私たちのコードは、https://github.com/Supercomputing-System-AI-Lab/STEPでリリースされています。
関連論文リスト
- Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling [55.026048429595384]
テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:57:43Z) - On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study [4.798155648915794]
大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。
我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。
同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
論文 参考訳(メタデータ) (2025-07-07T18:00:06Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Label Delay in Online Continual Learning [77.05325581370893]
しばしば見過ごされる重要な側面はラベルの遅延であり、遅くてコストのかかるアノテーションプロセスのために新しいデータがラベル付けされない可能性がある。
本稿では,データとラベルストリーム間のラベル遅延を,時間経過とともに明示的にモデル化した新しい連続学習フレームワークを提案する。
提案手法はラベル遅延係数に最も影響を受けていないことを示し、場合によっては非遅延の精度を回復させる。
論文 参考訳(メタデータ) (2023-12-01T20:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。