Fugu-MT 論文翻訳(概要): Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

論文の概要: Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

arxiv url: http://arxiv.org/abs/2503.01422v2
Date: Wed, 15 Oct 2025 05:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 15:32:13.195604
Title: Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding
Title（参考訳）: サンプリング効率のよいテスト時間スケーリング: 初期復号におけるベスト・オブ・Nサンプリングの自己評価
Authors: Yiming Wang, Pei Zhang, Siyuan Huang, Baosong Yang, Zhuosheng Zhang, Fei Huang, Rui Wang,
Abstract要約: テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。 Best-of-N (BoN) サンプリングはサンプリングベースの一般的なスケーリング手法である。我々は,全Nサンプルの完全生成を回避する復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。コスト面では、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3～4ポイント精度を向上させることができる。
参考スコア（独自算出の注目度）: 48.55176091771745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time scaling enhances large language model performance by allocating additional compute resources during inference. Best-of-N (BoN) sampling serves as a common sampling-based scaling technique, broadening the search space in parallel to find better solutions from the model distribution. However, its cost-performance trade-off is still underexplored. Two main challenges limit the efficiency of BoN sampling: (1) Generating N full samples consumes substantial GPU memory, reducing inference capacity under limited resources. (2) Reward models add extra memory and latency overhead, and training strong reward models introduces potential training data costs. Although some studies have explored efficiency improvements, none have addressed both challenges at once. To address this gap, we propose Self-Truncation Best-of-N (ST-BoN), a decoding method that avoids fully generating all N samples and eliminates the need for reward models. It leverages early sampling consistency in the model's internal states to identify the most promising path and truncate suboptimal ones. In terms of cost, ST-BoN reduces dynamic GPU memory usage by over 80% and inference latency by 50%. In terms of cost-performance trade-off, ST-BoN achieves the same performance as Full-BoN while saving computational cost by 70%-80%, and under the same cost, it can improve accuracy by 3-4 points.
Abstract（参考訳）: テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。 Best-of-N (BoN) サンプリングは一般的なサンプリングベースのスケーリング手法であり、モデル分布からより良い解を求めるために、探索空間を並列に拡張する。しかし、その費用対効果のトレードオフはまだ未定である。 1) Nのフルサンプルの生成は、かなりのGPUメモリを消費し、限られたリソース下での推論能力を削減する。 2) Rewardモデルはメモリと遅延のオーバーヘッドを増大させ、トレーニングの強い報奨モデルは潜在的なトレーニングデータコストを導入します。効率の改善を探求する研究もあるが、一度に両方の課題に対処することはなかった。このギャップに対処するために,全Nサンプルの完全生成を回避し,報酬モデルの必要性を排除した復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。モデルの内部状態の早期サンプリング一貫性を活用して、最も有望なパスを特定し、最適以下のパスを切断する。コスト面では、ST-BoNは動的GPUメモリ使用量を80%以上削減し、推論遅延を50%削減する。コストパフォーマンスのトレードオフに関して、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3～4ポイント精度を向上することができる。

関連論文リスト

CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。 MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文参考訳（メタデータ） (2025-10-17T14:04:37Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文参考訳（メタデータ） (2025-02-18T09:18:02Z)
Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。 NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文参考訳（メタデータ） (2024-08-06T13:49:01Z)
Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文参考訳（メタデータ） (2024-07-08T15:59:44Z)
It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文参考訳（メタデータ） (2024-06-12T15:34:28Z)
An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文参考訳（メタデータ） (2024-02-12T22:32:12Z)
Decreasing the Computing Time of Bayesian Optimization using Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。 BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文参考訳（メタデータ） (2023-09-08T14:05:56Z)
Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文参考訳（メタデータ） (2023-05-21T13:30:56Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Fast Bayesian Optimization of Needle-in-a-Haystack Problems using Zooming Memory-Based Initialization [73.96101108943986]
Needle-in-a-Haystack問題は、データセットのサイズに対して最適な条件が極端に不均衡であるときに発生する。本稿では,従来のベイズ最適化原理に基づくズームメモリに基づく初期化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-26T23:57:41Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。