論文の概要: Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding
- arxiv url: http://arxiv.org/abs/2503.01422v2
- Date: Wed, 15 Oct 2025 05:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.195604
- Title: Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding
- Title(参考訳): サンプリング効率のよいテスト時間スケーリング: 初期復号におけるベスト・オブ・Nサンプリングの自己評価
- Authors: Yiming Wang, Pei Zhang, Siyuan Huang, Baosong Yang, Zhuosheng Zhang, Fei Huang, Rui Wang,
- Abstract要約: テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。
Best-of-N (BoN) サンプリングはサンプリングベースの一般的なスケーリング手法である。
我々は,全Nサンプルの完全生成を回避する復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
コスト面では、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3~4ポイント精度を向上させることができる。
- 参考スコア(独自算出の注目度): 48.55176091771745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling enhances large language model performance by allocating additional compute resources during inference. Best-of-N (BoN) sampling serves as a common sampling-based scaling technique, broadening the search space in parallel to find better solutions from the model distribution. However, its cost-performance trade-off is still underexplored. Two main challenges limit the efficiency of BoN sampling: (1) Generating N full samples consumes substantial GPU memory, reducing inference capacity under limited resources. (2) Reward models add extra memory and latency overhead, and training strong reward models introduces potential training data costs. Although some studies have explored efficiency improvements, none have addressed both challenges at once. To address this gap, we propose Self-Truncation Best-of-N (ST-BoN), a decoding method that avoids fully generating all N samples and eliminates the need for reward models. It leverages early sampling consistency in the model's internal states to identify the most promising path and truncate suboptimal ones. In terms of cost, ST-BoN reduces dynamic GPU memory usage by over 80% and inference latency by 50%. In terms of cost-performance trade-off, ST-BoN achieves the same performance as Full-BoN while saving computational cost by 70%-80%, and under the same cost, it can improve accuracy by 3-4 points.
- Abstract(参考訳): テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。
Best-of-N (BoN) サンプリングは一般的なサンプリングベースのスケーリング手法であり、モデル分布からより良い解を求めるために、探索空間を並列に拡張する。
しかし、その費用対効果のトレードオフはまだ未定である。
1) Nのフルサンプルの生成は、かなりのGPUメモリを消費し、限られたリソース下での推論能力を削減する。
2) Rewardモデルはメモリと遅延のオーバーヘッドを増大させ、トレーニングの強い報奨モデルは潜在的なトレーニングデータコストを導入します。
効率の改善を探求する研究もあるが、一度に両方の課題に対処することはなかった。
このギャップに対処するために,全Nサンプルの完全生成を回避し,報酬モデルの必要性を排除した復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
モデルの内部状態の早期サンプリング一貫性を活用して、最も有望なパスを特定し、最適以下のパスを切断する。
コスト面では、ST-BoNは動的GPUメモリ使用量を80%以上削減し、推論遅延を50%削減する。
コストパフォーマンスのトレードオフに関して、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3~4ポイント精度を向上することができる。
関連論文リスト
- $\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文 参考訳(メタデータ) (2024-08-06T13:49:01Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Fast Bayesian Optimization of Needle-in-a-Haystack Problems using
Zooming Memory-Based Initialization [73.96101108943986]
Needle-in-a-Haystack問題は、データセットのサイズに対して最適な条件が極端に不均衡であるときに発生する。
本稿では,従来のベイズ最適化原理に基づくズームメモリに基づく初期化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T23:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。