論文の概要: Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2511.09345v1
- Date: Thu, 13 Nov 2025 01:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.528591
- Title: Seer Self-Consistency: Advance Budget Estimation for Adaptive Test-Time Scaling
- Title(参考訳): 厳密な自己整合性: 適応的テスト時間スケーリングのための事前予算推定
- Authors: Shiyu Ji, Yixuan Wang, Yijun Liu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
- 参考スコア(独自算出の注目度): 55.026048429595384
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time scaling improves the inference performance of Large Language Models (LLMs) but also incurs substantial computational costs. Although recent studies have reduced token consumption through dynamic self-consistency, they remain constrained by the high latency of sequential requests. In this paper, we propose SeerSC, a dynamic self-consistency framework that simultaneously improves token efficiency and latency by integrating System 1 and System 2 reasoning. Specifically, we utilize the rapid System 1 to compute the answer entropy for given queries. This score is then used to evaluate the potential of samples for scaling, enabling dynamic self-consistency under System 2. Benefiting from the advance and accurate estimation provided by System 1, the proposed method can reduce token usage while simultaneously achieving a significant decrease in latency through parallel generation. It outperforms existing methods, achieving up to a 47% reduction in token consumption and a 43% reduction in inference latency without significant performance loss.
- Abstract(参考訳): テストタイムスケーリングは、Large Language Models (LLMs) の推論性能を向上させるが、かなりの計算コストを発生させる。
近年の研究では、動的自己整合性によってトークンの消費を減らしているが、シーケンシャルな要求のレイテンシの高さに制約されている。
本稿では,システム1とシステム2の推論を統合することで,トークン効率とレイテンシを同時に向上する動的自己整合性フレームワークであるSeerSCを提案する。
具体的には,与えられたクエリに対する応答エントロピーを高速システム1を用いて計算する。
このスコアは、スケーリングのためのサンプルの可能性を評価するために使用され、System 2の下で動的自己整合を可能にする。
システム1の先進的かつ正確な推定により,並列生成による遅延の大幅な低減を実現しつつ,トークンの使用量を削減できる。
既存の手法よりも優れており、トークン消費の最大47%削減と推論遅延の最大43%削減を実現している。
関連論文リスト
- LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Slim-SC: Thought Pruning for Efficient Scaling with Self-Consistency [3.6199690908942546]
自己一貫性(SC)は複数の推論チェーンを並列に生成し、多数決によって最終回答を選択する。
Slim-SCは、思考レベルでチェーン間の類似性を用いて冗長なチェーンを識別・除去するステップワイズプルーニング戦略である。
実験によると、Slim-SCはR1-Distillで、それぞれ最大45%と26%のレイテンシとKVC使用量を削減している。
論文 参考訳(メタデータ) (2025-09-17T14:00:51Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Latency and Token-Aware Test-Time Compute [3.573250939705335]
推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大きな言語モデル(LLM)の性能を向上させることができる。
動的計算アロケーションとメソッド選択の問題として,推論時間スケーリングを定式化する。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に組み込んでおり、後者はユーザエクスペリエンス、特にエージェントモデルにとって重要なものです。
論文 参考訳(メタデータ) (2025-09-11T21:35:19Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Path-Consistency with Prefix Enhancement for Efficient Inference in LLMs [3.6696973040141034]
path-consistencyは推論遅延を最大40.5%改善し、タスク間のタスク精度を維持している。
実験の結果,経路整合性は,タスク間のタスク精度を維持しつつ,最大40.5%の推論遅延を改善することが示された。
論文 参考訳(メタデータ) (2024-08-25T01:45:53Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。