論文の概要: Proof-Carrying Numbers (PCN): A Protocol for Trustworthy Numeric Answers from LLMs via Claim Verification
- arxiv url: http://arxiv.org/abs/2509.06902v1
- Date: Mon, 08 Sep 2025 17:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.282042
- Title: Proof-Carrying Numbers (PCN): A Protocol for Trustworthy Numeric Answers from LLMs via Claim Verification
- Title(参考訳): Proof-Carrying Numbers (PCN): クレーム検証によるLCMからの信頼できる数値回答のためのプロトコル
- Authors: Aivin V. Solatorio,
- Abstract要約: 我々は,機械的検証により数値忠実度を強制するプレゼンテーション層プロトコルであるtextbfProof-Carrying Numbers (PCN) を提案する。
PCNは軽量でモデルに依存しず、既存のアプリケーションにシームレスに統合され、暗号的なコミットメントで拡張できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) as stochastic systems may generate numbers that deviate from available data, a failure known as \emph{numeric hallucination}. Existing safeguards -- retrieval-augmented generation, citations, and uncertainty estimation -- improve transparency but cannot guarantee fidelity: fabricated or misquoted values may still be displayed as if correct. We propose \textbf{Proof-Carrying Numbers (PCN)}, a presentation-layer protocol that enforces numeric fidelity through mechanical verification. Under PCN, numeric spans are emitted as \emph{claim-bound tokens} tied to structured claims, and a verifier checks each token under a declared policy (e.g., exact equality, rounding, aliases, or tolerance with qualifiers). Crucially, PCN places verification in the \emph{renderer}, not the model: only claim-checked numbers are marked as verified, and all others default to unverified. This separation prevents spoofing and guarantees fail-closed behavior. We formalize PCN and prove soundness, completeness under honest tokens, fail-closed behavior, and monotonicity under policy refinement. PCN is lightweight and model-agnostic, integrates seamlessly into existing applications, and can be extended with cryptographic commitments. By enforcing verification as a mandatory step before display, PCN establishes a simple contract for numerically sensitive settings: \emph{trust is earned only by proof}, while the absence of a mark communicates uncertainty.
- Abstract(参考訳): 確率的システムとしての大規模言語モデル(LLM)は、利用可能なデータから逸脱する数値を生成する。
既存の安全対策 -- 検索強化された生成、引用、不確実性推定 -- は透明性を向上させるが、忠実性を保証することはできない。
そこで我々は,機械的検証によって数値の忠実度を強制するプレゼンテーション層プロトコルである \textbf{Proof-Carrying Numbers (PCN) を提案する。
PCNでは、数値スパンは構造化されたクレームに結びついた 'emph{claim-bound tokens' として出力され、検証器は宣言されたポリシー(例えば、正確な等式、丸め、エイリアスまたは許容値)の下で各トークンをチェックする。
重要なのは、PCNはモデルではなく、emph{renderer} に検証を配置する。
この分離により、スプーフィングが防止され、フェールクロースされた動作が保証される。
我々はPCNを定式化し、誠実なトークンの下での健全性、完全性、フェールクロースされた動作、およびポリシーの洗練の下での単調性を証明する。
PCNは軽量でモデルに依存しず、既存のアプリケーションにシームレスに統合され、暗号的なコミットメントで拡張できる。
証明を表示の前に必須のステップとして強制することにより、PCNは数値に敏感な設定のための簡単な契約を確立する: \emph{trust is obtained by proof}, while the absence of a mark communicates。
関連論文リスト
- Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - Can AI Keep a Secret? Contextual Integrity Verification: A Provable Security Architecture for LLMs [0.0]
我々は、暗号的に署名されたラベルを全てのトークンにアタッチする、既定のセキュリティアーキテクチャであるContextual Integrity Verification (CIV)を提示する。
CIVは、凍結したモデルに対して、前兆かつトーケン毎の非干渉保証を提供する。
Llama-3-8BとMistral-7Bのドロップイン保護を実証した。
論文 参考訳(メタデータ) (2025-08-12T18:47:30Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Cryptography with Certified Deletion [16.354530084834863]
我々は,暗号プリミティブの配列を認証された削除で生成する,新たな統一フレームワークを提案する。
プリミティブは、暗号化された平文が情報理論的に削除されたという古典的な証明書を生成するために、量子暗号文を保有している当事者を許可する。
論文 参考訳(メタデータ) (2022-07-05T00:48:06Z) - Quantum Proofs of Deletion for Learning with Errors [91.3755431537592]
完全同型暗号方式として, 完全同型暗号方式を初めて構築する。
我々の主要な技術要素は、量子証明器が古典的検証器に量子状態の形でのLearning with Errors分布からのサンプルが削除されたことを納得させる対話的プロトコルである。
論文 参考訳(メタデータ) (2022-03-03T10:07:32Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。