Fugu-MT 論文翻訳(概要): When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

論文の概要: When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning

arxiv url: http://arxiv.org/abs/2504.01005v1
Date: Tue, 01 Apr 2025 17:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:09.225159
Title: When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning
Title（参考訳）: 解決する時, 検証する時: LLM推論のための最適解法と生成検証
Authors: Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach,
Abstract要約: 大規模な言語モデルの推論能力を向上するための重要な戦略として、テスト時間計算のスケーリングが登場した。次世代予測課題としてのジェネレーティブ・リワード・モデル(GenRM)再フレーム検証の最近の進歩我々は、さまざまなモデルやデータセットにまたがる最も実用的な推論予算について、GenRMと自己整合性(SC)を評価した。
参考スコア（独自算出の注目度）: 90.5036809670993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling test-time compute has emerged as a key strategy for enhancing the reasoning capabilities of large language models (LLMs), particularly in tasks like mathematical problem-solving. A traditional approach, Self-Consistency (SC), generates multiple solutions to a problem and selects the most common answer via majority voting. Another common method involves scoring each solution with a reward model (verifier) and choosing the best one. Recent advancements in Generative Reward Models (GenRM) reframe verification as a next-token prediction task, enabling inference-time scaling along a new axis. Specifically, GenRM generates multiple verification chains-of-thought to score each solution. Under a limited inference budget, this introduces a fundamental trade-off: should you spend the budget on scaling solutions via SC or generate fewer solutions and allocate compute to verification via GenRM? To address this, we evaluate GenRM against SC under a fixed inference budget. Interestingly, we find that SC is more compute-efficient than GenRM for most practical inference budgets across diverse models and datasets. For instance, GenRM first matches SC after consuming up to 8x the inference compute and requires significantly more compute to outperform it. Furthermore, we derive inference scaling laws for the GenRM paradigm, revealing that compute-optimal inference favors scaling solution generation more aggressively than scaling the number of verifications. Our work provides practical guidance on optimizing test-time scaling by balancing solution generation and verification. The code is available at https://github.com/nishadsinghi/sc-genrm-scaling.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力を高めるための重要な戦略として、特に数学的な問題解決のようなタスクにおいて、テスト時間計算のスケーリングが登場した。従来のアプローチである自己整合性(SC)は、問題に対する複数のソリューションを生成し、多数決によって最も一般的な答えを選択する。もう一つの一般的な方法は、各解を報酬モデル(検証者)で評価し、最良の解を選択することである。ジェネレーティブ・リワード・モデル(GenRM)の最近の進歩は、新しい軸に沿った推論時間スケーリングを可能にする次世代の予測タスクとして再フレーム検証を行っている。具体的には、GenRMは各ソリューションを評価するために複数の検証チェーンを生成する。 SCによるソリューションのスケーリングに予算を費やすべきか、より少ないソリューションを生成し、GenRMによる検証に計算を割り当てるべきなのか? そこで我々は, SC に対する GenRM の評価を行った。興味深いことに、さまざまなモデルやデータセットにまたがるほとんどの実用的な推論予算において、SCはGenRMよりも計算効率が高い。例えば、GenRMは推論計算の最大8倍を消費した後にSCにマッチし、それを上回る計算を必要とする。さらに、GenRMパラダイムの推論スケーリング法則を導出し、計算最適推論は、検証数をスケーリングするよりも、より積極的なスケーリングソリューション生成を好んでいることを明らかにした。本研究は,ソリューション生成と検証のバランスをとることで,テスト時間のスケーリングを最適化する実践的なガイダンスを提供する。コードはhttps://github.com/nishadsinghi/sc-genrm-scaling.comで公開されている。

関連論文リスト

Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
s1: Simple test-time scaling [148.4204982041058]
テスト時間スケーリングは、パフォーマンスを改善するために余分なテスト時間計算を使用する言語モデリングに対する、有望な新しいアプローチである。テストタイムのスケーリングと強力な推論性能を実現するための最もシンプルなアプローチを探します。
論文参考訳（メタデータ） (2025-01-31T18:48:08Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。標準検証器と比較して、そのような生成検証器(genRM)はLLMのいくつかの利点の恩恵を受けることができる。我々は、MATHで28%$rightarrow$44.6%、MMLU抽象代数学で37.9%$rightarrow$53.5%の改善を観察する。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文参考訳（メタデータ） (2024-05-24T16:20:04Z)
EERO: Early Exit with Reject Option for Efficient Classification with limited budget [0.0]
本稿では,早期退避の問題をリジェクションオプション付き複数分類器を使用する問題に翻訳する新しい手法であるEEROを提案する。我々は、固定予算を保証するために指数重の集約を用いて、異なる頭部で出口の確率を調整する。 Cifar と ImageNet のデータセット上で ResNet-18 モデルと ConvNext アーキテクチャを用いて実験を行った結果,提案手法は予算配分を効果的に管理するだけでなく,過度なシナリオの正確性も向上することが示された。
論文参考訳（メタデータ） (2024-02-06T07:50:27Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。