論文の概要: Heimdall: test-time scaling on the generative verification
- arxiv url: http://arxiv.org/abs/2504.10337v1
- Date: Mon, 14 Apr 2025 15:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:34.360377
- Title: Heimdall: test-time scaling on the generative verification
- Title(参考訳): Heimdall: 生成検証におけるテストタイムスケーリング
- Authors: Wenlei Shi, Xing Jin,
- Abstract要約: 我々は,解の正しさを正確に判定できる長い CoT 検証 LLM である Heimdall を提案する。
純粋強化学習では、競争力のある数学の問題を62.5%から94.5%に向上する。
また,Heimdallの機能を拡張し,問題解決のスケールアップを図るため,Pessimistic Verificationを提案する。
- 参考スコア(独自算出の注目度): 2.662648783972914
- License:
- Abstract: An AI system can create and maintain knowledge only to the extent that it can verify that knowledge itself. Recent work on long Chain-of-Thought reasoning has demonstrated great potential of LLMs on solving competitive problems, but their verification ability remains to be weak and not sufficiently investigated. In this paper, we propose Heimdall, the long CoT verification LLM that can accurately judge the correctness of solutions. With pure reinforcement learning, we boost the verification accuracy from 62.5% to 94.5% on competitive math problems. By scaling with repeated sampling, the accuracy further increases to 97.5%. Through human evaluation, Heimdall demonstrates impressive generalization capabilities, successfully detecting most issues in challenging math proofs, the type of which is not included during training. Furthermore, we propose Pessimistic Verification to extend the functionality of Heimdall to scaling up the problem solving. It calls Heimdall to judge the solutions from a solver model and based on the pessimistic principle, selects the most likely correct solution with the least uncertainty. Taking DeepSeek-R1-Distill-Qwen-32B as the solver model, Pessimistic Verification improves the solution accuracy on AIME2025 from 54.2% to 70.0% with 16x compute budget and to 83.3% with more compute budget. With the stronger solver Gemini 2.5 Pro, the score reaches 93.0%. Finally, we prototype an automatic knowledge discovery system, a ternary system where one poses questions, another provides solutions, and the third verifies the solutions. Using the data synthesis work NuminaMath for the first two components, Heimdall effectively identifies problematic records within the dataset and reveals that nearly half of the data is flawed, which interestingly aligns with the recent ablation studies from NuminaMath.
- Abstract(参考訳): AIシステムは、知識自体を検証できる範囲でのみ、知識を作成し、維持することができる。
長期のチェーン・オブ・ソート推論に関する最近の研究は、LLMの競合問題の解決に大きな可能性を示しているが、その検証能力は弱いままであり、十分には研究されていない。
本稿では,解の正しさを正確に判定できる長いCoT検証LLMであるHeimdallを提案する。
純粋強化学習では、競争力のある数学の問題を62.5%から94.5%に向上する。
繰り返しサンプリングすることで、精度は97.5%に向上する。
人間の評価を通じて、Heimdallは印象的な一般化能力を示し、数学の証明に挑戦する際のほとんどの問題を検出することに成功した。
さらに,Heimdallの機能を拡張し,問題解決のスケールアップを図るため,Pessimistic Verificationを提案する。
それは、解法モデルから解を判断するためにHeimdallと呼ばれ、悲観的な原理に基づいて、最も正しい解を最小の不確実性で選択する。
DeepSeek-R1-Distill-Qwen-32B を解法モデルとし、Pessimistic Verification は AIME2025 の解の精度を 16 倍の計算予算で 54.2% から 70.0% に改善し、83.3% に改善した。
より強力な解法であるGemini 2.5 Proでは、スコアは93.0%に達する。
最後に,自動知識発見システム,質問を提起する3次システム,ソリューションを提供する3次システム,ソリューションを検証する3次システム,を試作する。
最初の2つのコンポーネントでNuminaMathを使用すると、Heimdallはデータセット内の問題のあるレコードを効果的に識別し、データの半分近くが欠陥があることを明らかにする。
関連論文リスト
- Diverse Inference and Verification for Advanced Reasoning [19.88677753421871]
OpenAI o1、o3、DeepSeek R1のようなLLMの推論は数学とコーディングに大きな進歩をもたらした。
テスト時に複数のモデルとメソッドを組み合わせる、さまざまな推論アプローチを使用します。
数学や符号問題の検証や他の問題に対する拒絶サンプリングは簡単かつ効果的であることがわかった。
論文 参考訳(メタデータ) (2025-02-14T07:22:25Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Towards Explainable Metaheuristic: Mining Surrogate Fitness Models for
Importance of Variables [69.02115180674885]
4つのベンチマーク問題を用いて代理モデルを訓練し、代理モデルによる探索空間の学習について検討する。
代々の人口データに基づいて学習した結果,サロゲートモデルが問題の鍵となる特徴を抽出できることが示唆された。
論文 参考訳(メタデータ) (2022-05-31T09:16:18Z) - Calibrated Learning to Defer with One-vs-All Classifiers [1.14219428942199]
遅延(L2D)フレームワークの学習は、AIシステムをより安全にする可能性がある。
与えられた入力に対して、正しい行動を取るモデルよりも人間の方が確率が高い場合、システムは決定を人間に推論することができる。
本研究では,L2Dシステムのキャリブレーションについて検討し,出力する確率が健全かどうかを検討した。
論文 参考訳(メタデータ) (2022-02-08T06:24:06Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Machine learning for complete intersection Calabi-Yau manifolds: a
methodological study [0.0]
我々は機械学習(ML)を用いてホッジ数$h1,1$と$h2,1$の完全なカラビ・ヤウ交差点を予測する問題を再考する。
我々は、古いデータセットのインセプションモデルにインスパイアされたニューラルネットワークを使用して、トレーニング用のデータの30% (resp. 70%) のみを使用して、97% (resp. 99%) の精度で$h1,1$を得る。
新しい例では、単純な線形回帰は、トレーニング用のデータの30%でほぼ100%の正確性をもたらす。
論文 参考訳(メタデータ) (2020-07-30T19:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。