論文の概要: Heimdall: test-time scaling on the generative verification
- arxiv url: http://arxiv.org/abs/2504.10337v2
- Date: Wed, 16 Apr 2025 14:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 12:44:36.074992
- Title: Heimdall: test-time scaling on the generative verification
- Title(参考訳): Heimdall: 生成検証におけるテストタイムスケーリング
- Authors: Wenlei Shi, Xing Jin,
- Abstract要約: 我々は,解の正しさを正確に判定できる長い CoT 検証 LLM である Heimdall を提案する。
純粋強化学習では、競争力のある数学の問題を62.5%から94.5%に向上する。
また,Heimdallの機能を拡張し,問題解決のスケールアップを図るため,Pessimistic Verificationを提案する。
- 参考スコア(独自算出の注目度): 2.662648783972914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.
- Abstract(参考訳): AIシステムは、知識自体を検証できる範囲でのみ、知識を作成し、維持することができる。
長期のチェーン・オブ・ソート推論に関する最近の研究は、LLMの競合問題の解決に大きな可能性を示しているが、その検証能力は弱いままであり、十分には研究されていない。
本稿では,解の正しさを正確に判定できる長いCoT検証LLMであるHeimdallを提案する。
純粋強化学習では、競争力のある数学の問題を62.5%から94.5%に向上する。
繰り返しサンプリングすることで、精度は97.5%に向上する。
人間の評価を通じて、Heimdallは印象的な一般化能力を示し、数学の証明に挑戦する際のほとんどの問題を検出することに成功した。
さらに,Heimdallの機能を拡張し,問題解決のスケールアップを図るため,Pessimistic Verificationを提案する。
それは、解法モデルから解を判断するためにHeimdallと呼ばれ、悲観的な原理に基づいて、最も正しい解を最小の不確実性で選択する。
DeepSeek-R1-Distill-Qwen-32B を解法モデルとし、Pessimistic Verification は AIME2025 の解の精度を 16 倍の計算予算で 54.2% から 70.0% に改善し、83.3% に改善した。
より強力な解法であるGemini 2.5 Proでは、スコアは93.0%に達する。
最後に,自動知識発見システム,質問を提起する3次システム,ソリューションを提供する3次システム,ソリューションを検証する3次システム,を試作する。
最初の2つのコンポーネントでNuminaMathを使用すると、Heimdallはデータセット内の問題のあるレコードを効果的に識別し、データの半分近くが欠陥があることを明らかにする。
関連論文リスト
- Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。
DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。
このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T17:57:33Z) - Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities [0.0]
ナンバーランド(Numberland)は、LSMをベースとしたエージェントの数値推論能力を評価するための100プロブレム試験である。
OpenAIのo1とo1-mini, Google Gemini, Microsoft Copilot, Anthropic Claudeの5つのLDMエージェントを評価した。
私たちは25の難しい問題に対してトップ24ソルバ(o1と73%の精度)をテストし、そのスコアは27%に低下し、ボトルネックとして検索を確認しました。
論文 参考訳(メタデータ) (2025-03-31T21:06:39Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Diverse Inference and Verification for Advanced Reasoning [19.88677753421871]
OpenAI o1、o3、DeepSeek R1のようなLLMの推論は数学とコーディングに大きな進歩をもたらした。
テスト時に複数のモデルとメソッドを組み合わせる、さまざまな推論アプローチを使用します。
数学や符号問題の検証や他の問題に対する拒絶サンプリングは簡単かつ効果的であることがわかった。
論文 参考訳(メタデータ) (2025-02-14T07:22:25Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Towards Explainable Metaheuristic: Mining Surrogate Fitness Models for
Importance of Variables [69.02115180674885]
4つのベンチマーク問題を用いて代理モデルを訓練し、代理モデルによる探索空間の学習について検討する。
代々の人口データに基づいて学習した結果,サロゲートモデルが問題の鍵となる特徴を抽出できることが示唆された。
論文 参考訳(メタデータ) (2022-05-31T09:16:18Z) - Machine learning for complete intersection Calabi-Yau manifolds: a
methodological study [0.0]
我々は機械学習(ML)を用いてホッジ数$h1,1$と$h2,1$の完全なカラビ・ヤウ交差点を予測する問題を再考する。
我々は、古いデータセットのインセプションモデルにインスパイアされたニューラルネットワークを使用して、トレーニング用のデータの30% (resp. 70%) のみを使用して、97% (resp. 99%) の精度で$h1,1$を得る。
新しい例では、単純な線形回帰は、トレーニング用のデータの30%でほぼ100%の正確性をもたらす。
論文 参考訳(メタデータ) (2020-07-30T19:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。