論文の概要: Value-Guided Search for Efficient Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2505.17373v1
- Date: Fri, 23 May 2025 01:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.754495
- Title: Value-Guided Search for Efficient Chain-of-Thought Reasoning
- Title(参考訳): 効率の良い連鎖推論のための値誘導探索
- Authors: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun,
- Abstract要約: 1.5Bトークンレベルの値モデルをトレーニングし、DeepSeekモデルに適用して、テスト時間計算のスケーリングによるパフォーマンス向上を実現します。
推論予算は64世代で、DeepSeek-R1-Distill-1.5BのVGSは4つのベンチマークで平均45.7%の精度を達成している。
- 参考スコア(独自算出の注目度): 43.99559903458839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.
- Abstract(参考訳): 本稿では,長文推論トレース上での値モデル学習をシンプルかつ効率的に行う方法を提案する。
従来のプロセス報酬モデル (PRM) と比較して,本手法では「ステップ」という詳細な概念は必要とせず,長文推論モデルでは定義が困難である。
250万の推論トレースのデータセットを収集することにより、1.5Bトークンレベルの値モデルをトレーニングし、DeepSeekモデルに適用して、テスト時間計算のスケーリングによるパフォーマンス向上を実現します。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,多数決や最良得票などの標準手法よりも優れたテスト時間スケーリングを実現する。
推論予算は64世代で、DeepSeek-R1-Distill-1.5BのVGSは4つの競合ベンチマーク(AIME 2024と2025、HMMT Feb 2024と2025)で平均45.7%の精度を達成し、o3-mini-mediumと同等に達する。
さらに、VGSは多数決と同じ結果を達成するのに必要なFLOPを著しく削減する。
データセット、モデル、コードベースはオープンソースです。
関連論文リスト
- Reasoning-Based AI for Startup Evaluation (R.A.I.S.E.): A Memory-Augmented, Multi-Step Decision Framework [0.0]
本稿では,意思決定ツリーの解釈可能性と大規模言語モデル(LLM)の高度な推論能力のギャップを埋めて,スタートアップの成功を予測する新しいフレームワークを提案する。
我々の手法はチェーン・オブ・ソート・プロンプトを利用して詳細な推論ログを生成し、その後、構造化された人間の理解可能な論理ルールに蒸留する。
我々の手法は、従来の意思決定プロセスを強化するだけでなく、専門家の介入や継続的な政策改善を促進する。
論文 参考訳(メタデータ) (2025-04-16T13:53:42Z) - Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning [231.11339402237903]
反応前に思考を通して推論できるSeed1.5-Thinkingを紹介した。
Seed1.5-ThinkingはAIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成した。
これは、STEMとコーディングにおいて優れた推論能力を示す。
論文 参考訳(メタデータ) (2025-04-10T17:10:51Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。