Fugu-MT 論文翻訳(概要): Pipeline for Verifying LLM-Generated Mathematical Solutions

論文の概要: Pipeline for Verifying LLM-Generated Mathematical Solutions

arxiv url: http://arxiv.org/abs/2602.20770v1
Date: Tue, 24 Feb 2026 11:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.717487
Title: Pipeline for Verifying LLM-Generated Mathematical Solutions
Title（参考訳）: LLM生成数理解の検証パイプライン
Authors: Varvara Sazonova, Dmitri Shmelkin, Stanislav Kikot, Vasily Motolygin,
Abstract要約: 自動および対話的な検証のためのパイプライン。この構造には、ベンチマークで選択できる3つのAIエージェントが含まれている。いくつかのデータセットの実験は、偽陽性の確率が低いことを示唆している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the growing popularity of Large Reasoning Models and their results in solving mathematical problems, it becomes crucial to measure their capabilities. We introduce a pipeline for both automatic and interactive verification as a more accurate alternative to only checking the answer which is currently the most popular approach for benchmarks. The pipeline can also be used as a generator of correct solutions both in formal and informal languages. 3 AI agents, which can be chosen for the benchmark accordingly, are included in the structure. The key idea is the use of prompts to obtain the solution in the specific form which allows for easier verification using proof assistants and possible use of small models ($\le 8B$). Experiments on several datasets suggest low probability of False Positives. The open-source implementation with instructions on setting up a server is available at https://github.com/LogicEnj/lean4_verification_pipeline.
Abstract（参考訳）: 大規模推論モデル(Large Reasoning Models)の人気が高まり、数学的な問題を解決する結果が得られたことにより、それらの能力を測定することが重要となる。自動検証とインタラクティブ検証の両方のためのパイプラインを導入し、ベンチマークで現在最もポピュラーなアプローチである回答のみをチェックするための、より正確な代替手段を紹介します。パイプラインは、フォーマル言語と非公式言語の両方で正しいソリューションのジェネレータとしても使用できる。この構造には、ベンチマークで選択できる3つのAIエージェントが含まれている。鍵となるアイデアは、特定の形式でソリューションを得るためのプロンプトを使用することで、証明アシスタントを使った検証が容易になり、小さなモデル($\le 8B$)の使用が可能になることである。いくつかのデータセットの実験は、偽陽性の確率が低いことを示唆している。サーバのセットアップ手順を備えたオープンソース実装はhttps://github.com/LogicEnj/lean4_verification_pipeline.comで公開されている。

関連論文リスト

$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。 V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。 V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文参考訳（メタデータ） (2026-03-04T17:22:16Z)
An Exploratory Study of Bayesian Prompt Optimization for Test-Driven Code Generation with Large Language Models [28.532456798313376]
大規模言語モデル(LLM)を用いた機能的正しいコード生成の課題について考察する。本稿では、コードジェネレーション(BODE-GEN)のためのエムBOと呼ばれるベイズ最適化(BO)手法を提案する。 BODE-GENは、与えられたテストケースのセット上で、試験されたプロンプトと生成されたコードの機能的正確さの形式で、トレーニングデータによってガイドされたプロンプトを適応的にデータ駆動で探索する。
論文参考訳（メタデータ） (2025-12-17T04:39:19Z)
Reasoning Planning for Language Models [23.519351730129426]
本稿では,コントラスト学習フレームワークであるEPICを紹介する。 EPICは、モデル推論能力とクエリメソッド互換性の両方をキャプチャする共有表現空間を学習する。多様な数学的推論タスクの実験は、EPICが常に最適な推論方法を選択することを示している。
論文参考訳（メタデータ） (2025-11-01T11:51:53Z)
Reasoning Distillation and Structural Alignment for Improved Code Generation [0.6933020649563103]
この研究は、大規模言語モデルの推論能力を、より速く、より安価にデプロイできる、より小さく、より効率的なモデルに蒸留する。提案手法は,正解経路の同定を学習することで,VLLMの推論能力と問題解決能力をエミュレートするためにモデルを訓練する。実験結果から,我々の微調整モデルは,安価で簡単な実装プロセスによって開発され,パス@1,平均データフロー,平均構文がメトリクスにマッチする点において,ベースラインモデルよりも大幅に優れていることがわかった。
論文参考訳（メタデータ） (2025-10-20T14:47:47Z)
Relevance to Utility: Process-Supervised Rewrite for RAG [38.81331265140413]
モジュールが真のドキュメントユーティリティをキャプチャできないことを示す。本稿では,正しい解を生成する確率を最大化するために,直接最適化する鍵となる特徴を持つR2Uを提案する。
論文参考訳（メタデータ） (2025-09-19T04:24:57Z)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文参考訳（メタデータ） (2025-07-05T12:31:17Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。 RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文参考訳（メタデータ） (2023-05-23T20:15:56Z)
Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文参考訳（メタデータ） (2020-07-20T12:07:48Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。