論文の概要: LATTS: Locally Adaptive Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2509.20368v1
- Date: Tue, 16 Sep 2025 17:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.46742
- Title: LATTS: Locally Adaptive Test-Time Scaling
- Title(参考訳): LATTS: ローカルな適応型テストタイムスケーリング
- Authors: Theo Uscidda, Matthew Trager, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto,
- Abstract要約: 生成ステップ間で変数計算を割り当てるために,emphLocally Adaptive Test-Time Scaling (LATTS)を提案する。
LATTSは検証者ベースの受け入れ基準を用いて、生成プロセスを再サンプリング、バックトラック、再起動、または停止するかを決定する。
実験結果から, LATTS は標準検証手法と比較して, 高い精度で計算トレードオフを達成できることがわかった。
- 参考スコア(独自算出の注目度): 45.37857725357838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One common strategy for improving the performance of Large Language Models (LLMs) on downstream tasks involves using a \emph{verifier model} to either select the best answer from a pool of candidates or to steer the auto-regressive generation process towards better outputs. This class of methods typically results in improved accuracy at the cost of increased computation at test-time, a paradigm known as \emph{test-time scaling}. However, most existing approaches increase computation uniformly across all samples and generation steps, without considering the complexity of individual instances, leading to inefficient resource use. We address this limitation by proposing an approach, called \emph{Locally Adaptive Test-Time Scaling (LATTS)}, that allocates variable compute across generation steps. Specifically, at each generation step, LATTS employs a verifier-based acceptance criterion to decide whether to resample, backtrack, restart, or stop the generation process. This criterion effectively adjusts the per-step computational effort based on a precise notion of \emph{local difficulty} derived from the verifier model. Empirical results show that LATTS achieves significantly superior accuracy--compute tradeoffs compared to standard verifier-based methods.
- Abstract(参考訳): 下流タスクにおけるLarge Language Models(LLMs)のパフォーマンスを改善するための一般的な戦略は、候補のプールから最良の答えを選択するために \emph{verifier model} を使うか、自動回帰生成プロセスをより良い出力に向けて操るかである。
このタイプの手法は一般に、テスト時に計算量を増やすコストで精度が向上する。
しかし、既存のほとんどのアプローチは、個々のインスタンスの複雑さを考慮せずに、全てのサンプルと生成ステップで計算を均一に増加させ、非効率なリソース使用につながる。
この制限に対処するために、生成ステップ間で変数計算を割り当てる、‘emph{Locally Adaptive Test-Time Scaling(LATTS)’というアプローチを提案する。
具体的には、各生成ステップにおいて、LATTSは検証者ベースの受け入れ基準を使用して、生成プロセスを再サンプリング、バックトラック、再起動、または停止するかを決定する。
この基準は、検証者モデルから派生した 'emph{local difficulty' という正確な概念に基づいて、ステップごとの計算作業を効果的に調整する。
実験結果から, LATTSは標準的な検証手法と比較して, 高精度なトレードオフを実現していることがわかった。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Adaptive Rectification Sampling for Test-Time Compute Scaling [5.085583751997239]
本稿では,大規模言語モデルを自己補正に導くために,適応整形サンプリング(AR-Sampling)を提案する。
我々のアプローチは、モデルがよりきめ細かいレベルで再考し、解の精度を向上することを可能にする。
論文 参考訳(メタデータ) (2025-04-02T02:57:52Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。
SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。
以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。