論文の概要: Pipeline for Verifying LLM-Generated Mathematical Solutions
- arxiv url: http://arxiv.org/abs/2602.20770v1
- Date: Tue, 24 Feb 2026 11:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.717487
- Title: Pipeline for Verifying LLM-Generated Mathematical Solutions
- Title(参考訳): LLM生成数理解の検証パイプライン
- Authors: Varvara Sazonova, Dmitri Shmelkin, Stanislav Kikot, Vasily Motolygin,
- Abstract要約: 自動および対話的な検証のためのパイプライン。
この構造には、ベンチマークで選択できる3つのAIエージェントが含まれている。
いくつかのデータセットの実験は、偽陽性の確率が低いことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the growing popularity of Large Reasoning Models and their results in solving mathematical problems, it becomes crucial to measure their capabilities. We introduce a pipeline for both automatic and interactive verification as a more accurate alternative to only checking the answer which is currently the most popular approach for benchmarks. The pipeline can also be used as a generator of correct solutions both in formal and informal languages. 3 AI agents, which can be chosen for the benchmark accordingly, are included in the structure. The key idea is the use of prompts to obtain the solution in the specific form which allows for easier verification using proof assistants and possible use of small models ($\le 8B$). Experiments on several datasets suggest low probability of False Positives. The open-source implementation with instructions on setting up a server is available at https://github.com/LogicEnj/lean4_verification_pipeline.
- Abstract(参考訳): 大規模推論モデル(Large Reasoning Models)の人気が高まり、数学的な問題を解決する結果が得られたことにより、それらの能力を測定することが重要となる。
自動検証とインタラクティブ検証の両方のためのパイプラインを導入し、ベンチマークで現在最もポピュラーなアプローチである回答のみをチェックするための、より正確な代替手段を紹介します。
パイプラインは、フォーマル言語と非公式言語の両方で正しいソリューションのジェネレータとしても使用できる。
この構造には、ベンチマークで選択できる3つのAIエージェントが含まれている。
鍵となるアイデアは、特定の形式でソリューションを得るためのプロンプトを使用することで、証明アシスタントを使った検証が容易になり、小さなモデル($\le 8B$)の使用が可能になることである。
いくつかのデータセットの実験は、偽陽性の確率が低いことを示唆している。
サーバのセットアップ手順を備えたオープンソース実装はhttps://github.com/LogicEnj/lean4_verification_pipeline.comで公開されている。
関連論文リスト
- Reasoning Planning for Language Models [23.519351730129426]
本稿では,コントラスト学習フレームワークであるEPICを紹介する。
EPICは、モデル推論能力とクエリメソッド互換性の両方をキャプチャする共有表現空間を学習する。
多様な数学的推論タスクの実験は、EPICが常に最適な推論方法を選択することを示している。
論文 参考訳(メタデータ) (2025-11-01T11:51:53Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。