論文の概要: Conformal Certification of Reasoning Trace Prefixes
- arxiv url: http://arxiv.org/abs/2605.30085v1
- Date: Thu, 28 May 2026 15:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.426539
- Title: Conformal Certification of Reasoning Trace Prefixes
- Title(参考訳): Reasoning Trace Prefix の Conformal Certification
- Authors: Matt Y. Cheung, Ashok Veeraraghavan, Hanjie Chen, Guha Balakrishnan,
- Abstract要約: CROP(Conformal Reasoning Output Prefixes)は,クリーンアノテート認証のためのバリデーション非依存の校正手順である。
CROPをオーバー・アンド・アンダー・ホールドし、有効な中間的推論を保ち、下流の補修精度を向上させることを実証する。
- 参考スコア(独自算出の注目度): 30.432255322700126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model reasoning traces are rarely all-or-nothing; they frequently contain valid intermediate steps before a critical error occurs. Existing uncertainty quantification methods typically certify final answers or entire responses, failing to provide statistical guarantees for the proportion of a sequential trace that can be safely retained. To address this, we introduce CROP (Conformal Reasoning Output Prefixes), a verifier-agnostic calibration procedure for clean-prefix certification. Given any step-level risk proxy, CROP selects a calibrated threshold and returns the longest contiguous prefix whose step risk proxies remain below it, routing the uncertified suffix for downstream review or repair. Assuming exchangeability, CROP rigorously controls the marginal probability that the returned prefix contains an annotated error. Across six process-labeled reasoning datasets, we demonstrate that standard step-level metrics such as AUROC do not fully capture prefix utility, suggesting verifiers should instead be evaluated by certified prefix length. Furthermore, CROP balances over- and under-withholding, improving downstream repair accuracy by preserving valid intermediate reasoning while discarding misleading suffixes. Ultimately, this work positions prefix certification as a rigorous, practical bridge between process supervision, abstention, and repair.
- Abstract(参考訳): 言語モデル推論トレースは、致命的なエラーが起こる前に有効な中間ステップを頻繁に含んでいるため、すべてあるいは何も含まないことは滅多にない。
既存の不確実性定量化手法は、一般に最終回答または全応答を認証し、安全に保持できるシーケンシャルトレースの割合に関する統計的保証を提供していない。
そこで我々はCROP(Conformal Reasoning Output Prefixes)を導入する。
ステップレベルのリスクプロキシが与えられた場合、CROPはキャリブレーションされたしきい値を選択し、ステップリスクプロキシがその下にある最も長い連続したプレフィックスを返す。
交換可能性を仮定すると、CROPは、返されるプレフィックスが注釈付きエラーを含む限界確率を厳格に制御する。
6つのプロセスラベル推論データセットで、AUROCのような標準ステップレベルのメトリクスがプレフィックスユーティリティを完全にキャプチャしていないことを示す。
さらに、CROPはオーバーホールドとアンダーホールドのバランスを保ち、誤った接尾辞を破棄しながら有効な中間推論を保ち、下流の補修精度を向上させる。
最終的に、この作業は、プロセスの監督、棄権、修理の間の厳密で実践的な橋として、プレフィックス認定を位置づけている。
関連論文リスト
- Trust but Verify: Prover-Verifier Deliberation for Selective LLM Prediction [4.273094752480624]
本稿では,対話的証明理論に基づく推論時間プロトコルであるPVDを導入する。
PVDは回答と構造化された信頼判定の両方を生成し、システムは不確実なケースを棄却しながら高信頼の回答を報告できる。
論文 参考訳(メタデータ) (2026-05-24T15:23:27Z) - Proper Scoring Rules for Agentic Uncertainty Quantification [0.038379177968040606]
Trajectory Proper Score (TPS) は、厳密に適切なトラジェクトリレベルスコアルールの予測非依存のファミリーである。
軌道ECEは分解能が弱いが、スカラー化された軌道ブライアは崩壊したスカラーのみを付与する。
論文 参考訳(メタデータ) (2026-05-23T22:22:00Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Preregistered Belief Revision Contracts [2.28438857884398]
PBRC(Preregistered Belief Revision Contracts)は,オープン通信と許容可能な変更を分離するプロトコルレベルのメカニズムである。
PBRC契約は、ファーストオーダーのエビデンストリガー、許容可能なリビジョンオペレータ、優先ルール、フォールバックポリシーを公に修正する。
本報告では,信頼軌道と正準化された監査トレースを保存したPBRC正規形式を,監査可能なトリガープロトコルで認めていることを示す。
論文 参考訳(メタデータ) (2026-04-16T22:22:54Z) - LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。
本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。
texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文 参考訳(メタデータ) (2026-02-19T16:45:38Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。