論文の概要: Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction
- arxiv url: http://arxiv.org/abs/2605.25133v1
- Date: Sun, 24 May 2026 15:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.850454
- Title: Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction
- Title(参考訳): Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction
- Authors: João Sedoc, Baotong Zhang, Dean Foster,
- Abstract要約: 本稿では,対話的証明理論に基づく推論時間プロトコルであるPVDを導入する。
PVDは回答と構造化された信頼判定の両方を生成し、システムは不確実なケースを棄却しながら高信頼の回答を報告できる。
- 参考スコア(独自算出の注目度): 4.273094752480624
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reliably knowing when a language model is correct is almost as important as being correct. We introduce prover-verifier deliberation (PVD), an inference-time protocol grounded in interactive proof theory, as a mechanism for selective prediction: the protocol produces both an answer and a structured confidence verdict, allowing a system to report high-confidence answers while abstaining on uncertain cases. In each dialogue, a prover defends a candidate answer through checkable sub-claims while a verifier issues targeted challenges and returns \textsc{Accept}, \textsc{Challenge}, or \textsc{Reject}. Because frozen language models are imperfect provers and verifiers operating over a noisy channel, formal soundness and completeness guarantees do not transfer; instead, we characterize the protocol empirically through its coverage-precision behavior. Our main experiment uses Claude Sonnet 4.6 as prover and Claude Haiku 4.5 as verifier on GPQA Diamond. Questions accepted with no answer revision, which we call Accept + No Change (ANC), are reported as the high-confidence subset; we evaluate this subset by its precision and coverage. ANC separates reliable from unreliable answers, yielding a $\sim$30pp HC-Prec gap over the non-ANC complement. Robustness experiments with GPT and Gemini pairings show that high HC-Prec can transfer across model families, while verifier strictness and domain competence largely determine the size of the selection gap. On Humanity's Last Exam, weaker prover-verifier pairings can collapse or invert the ANC signal, illustrating a practical failure mode when the verifier operates outside its effective region. Comparisons with self-consistency, universal self-consistency, multi-agent debate, and Reflexion suggest that prover-verifier deliberation supplies a distinct argument-defensibility signal for selective prediction.
- Abstract(参考訳): 言語モデルが正しいことを確実に知ることは、正しいことと同じくらい重要です。
本稿では,対話的証明理論に基づく推論時プロトコルであるPVD(Prother-verifier Deliberation)を選択的予測のメカニズムとして導入する。
それぞれの対話において、証明者はチェック可能なサブステートメントを通じて候補の答えを守り、検証者は目標とする課題を発行し、 \textsc{Accept}, \textsc{Challenge}, \textsc{Reject}を返す。
凍結した言語モデルは、ノイズの多いチャネル上で動作している不完全なプロバーと検証器であるため、形式的健全性と完全性保証は転送されない。
本実験では, GPQAダイヤモンド上でのクロード・ソネット4.6を証明器として, クロード・ハイク4.5を検証器として使用した。
本稿では,Accept + No Change (ANC) と呼ばれる回答修正を含まない質問を高信頼サブセットとして報告し,このサブセットを精度とカバレッジで評価する。
ANCは信頼性の低い答えから分離し、非ANC補数に対する$$\sim$30pp HC-Precギャップを得る。
GPT と Gemini のペアリングによるロバストネス実験では、HC-Prec がモデルファミリ間を移動可能であるのに対して、検証の厳しさと領域の能力は選択ギャップのサイズを決定できる。
HumanityのLast Examでは、より弱い証明器と検証器のペアリングがANC信号の崩壊や反転を可能とし、検証器が有効領域の外で動作する際には、実用的な障害モードが示される。
自己整合性, 普遍的自己整合性, マルチエージェント的議論, リフレクションとの比較から, 証明者検証の議論は, 選択的予測のために, 独自の議論防御信号を提供することが示唆された。
関連論文リスト
- Geometry-Calibrated Conformal Abstention for Language Models [25.731621771885887]
無知を認めるためにモデルをトレーニングすることは、過度に保守的な行動を引き起こす可能性がある。
本稿では,コンフォメーション予測(CP)を応用したポストホックフレームワークであるConformal Abstention (CA)を提案する。
論文 参考訳(メタデータ) (2026-04-30T14:20:16Z) - Preregistered Belief Revision Contracts [2.28438857884398]
PBRC(Preregistered Belief Revision Contracts)は,オープン通信と許容可能な変更を分離するプロトコルレベルのメカニズムである。
PBRC契約は、ファーストオーダーのエビデンストリガー、許容可能なリビジョンオペレータ、優先ルール、フォールバックポリシーを公に修正する。
本報告では,信頼軌道と正準化された監査トレースを保存したPBRC正規形式を,監査可能なトリガープロトコルで認めていることを示す。
論文 参考訳(メタデータ) (2026-04-16T22:22:54Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation [47.91529693614168]
既存の方法は、主に回答ファーストであり、回答を生成した後のみ信頼を生み出す。
モデルが答える前に信頼を出力する信頼第一パラダイムについて検討し、このスコアを正解する確率として解釈する。
我々は,信頼度校正と正解精度をセグメント化された信用代入を通じて協調的に最適化する強化学習フレームワークであるCoCAを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:03:13Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。