論文の概要: AutoPyVerifier: Learning Compact Executable Verifiers for Large Language Model Outputs
- arxiv url: http://arxiv.org/abs/2604.22937v1
- Date: Fri, 24 Apr 2026 18:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.059237
- Title: AutoPyVerifier: Learning Compact Executable Verifiers for Large Language Model Outputs
- Title(参考訳): AutoPyVerifier: 大規模言語モデル出力のためのコンパクトな実行可能検証を学習する
- Authors: Pouya Pezeshkpour, Estevam Hruschka,
- Abstract要約: AutoPyVerifierは、候補検証関数を合成し、非循環グラフを探索することでそれらを洗練するフレームワークである。
本稿では,AutoPyVerifier が初期 LLM 生成した検証セットに対して 55.0 F1 点まで目標目標予測を改善することを示す。
- 参考スコア(独自算出の注目度): 17.122224644097304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verification is becoming central to both reinforcement-learning-based training and inference-time control of large language models (LLMs). Yet current verifiers face a fundamental trade-off: LLM-based verifiers are expressive but hard to control and prone to error, while deterministic executable verifiers are reliable and interpretable but often limited in capability. We study the following question: given a development set of LLM outputs and labels for a target objective, such as correctness, can we automatically induce a minimal set of Python verifiers whose joint satisfaction closely matches that objective? We propose AutoPyVerifier, a framework that uses an LLM to synthesize candidate verifier functions and then refines them through search over a directed acyclic graph (DAG). By navigating the DAG, AutoPyVerifier systematically explores the space of deterministic executable verifiers and selects a compact verifier set whose joint satisfaction best approximates the target objective. Across mathematical reasoning, coding, function calling, and instruction-following benchmarks for several state-of-the-art LLMs, AutoPyVerifier improves target-objective prediction by up to 55.0 F1 points over the initial LLM-generated verifier sets. Additional analyses show that the most useful verification targets vary by benchmark and model, and that the DAG-based search shifts the learned verifier sets toward more structural and semantically grounded checks. We further show that exposing the discovered verifier set to an LLM as an external tool improves downstream accuracy by up to 17.0 points. We release our code
- Abstract(参考訳): 大規模言語モデル(LLM)の強化学習に基づくトレーニングと推論時間制御の両方において、検証が中心になっている。
しかし、現在の検証は基本的なトレードオフに直面している: LLMベースの検証は表現力があるが制御が難しく、エラーを起こしやすい一方、決定論的検証は信頼性があり、解釈可能であるが、しばしば能力に制限がある。
LLMのアウトプットとラベルの開発セット、例えば正しさなどの目標目標に対するラベルが与えられた場合、共同満足度がその目標と密接に一致した最小限のPython検証セットを自動生成できるだろうか?
提案するAutoPyVerifierは,LLMを用いて候補検証関数を合成し,有向非巡回グラフ (DAG) を探索することでそれらを洗練するフレームワークである。
DAGをナビゲートすることで、AutoPyVerifierは決定論的実行可能検証の空間を体系的に探索し、共同満足度が目標目標に最も近いコンパクト検証セットを選択する。
数式推論、コーディング、関数呼び出し、命令追従のベンチマークを通じて、AutoPyVerifierは、最初のLLM生成検証セットよりも55.0 F1ポイントまでターゲットオブジェクトの予測を改善する。
さらなる分析により、最も有用な検証対象は、ベンチマークとモデルによって異なり、DAGベースの検索は、学習された検証対象をより構造的で意味論的に基礎付けられたチェックにシフトすることが示された。
さらに, 検出した検証結果を外部ツールとしてLLMに公開することにより, 下流の精度を最大17.0ポイント向上することを示す。
コードをリリースします
関連論文リスト
- PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - SelfJudge: Faster Speculative Decoding via Self-Supervised Judge Verification [28.63435151584449]
本稿では,対象モデルの自己監督により検証者の判断を訓練するSelfJudgeを提案する。
本手法は,トークン置換応答が本来の応答の意味を保っているかどうかを評価することによって意味保存を測定する。
論文 参考訳(メタデータ) (2025-09-26T02:21:12Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。