論文の概要: Audit-of-Understanding: Posterior-Constrained Inference for Mathematical Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2510.10252v1
- Date: Sat, 11 Oct 2025 15:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.861088
- Title: Audit-of-Understanding: Posterior-Constrained Inference for Mathematical Reasoning in Language Models
- Title(参考訳): オーディット・オブ・アンダード:言語モデルにおける数学的推論のための後制約推論
- Authors: Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban,
- Abstract要約: AoU(Audit-of-Understanding)は,3つのフェーズを通じて,検証済みの前提に対する推論を制約するフレームワークである。
AoUは後天的に制約された推論であり、選択的予測と拒絶学習に繋がる。
コントリビューションは, (i) 完全検証の理論的保証, (ii) 不完全監査の過剰リスク境界, (iii) トラクタビリティ解析の3つである。
- 参考スコア(独自算出の注目度): 2.453830698820308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate reasoning traces that appear coherent but rest on unsupported assumptions, leading to hallucinated conclusions. Prior work mainly addresses factual hallucinations or relies on post-hoc verification, leaving reasoning-induced hallucinations largely unaddressed. We propose Audit-of-Understanding (AoU), a framework that constrains inference to validated premises through three phases: (1) decomposing a query into candidate assumptions, (2) auditing their support, and (3) conditioning inference only on the validated subset. Formally, AoU is \emph{posterior-constrained inference}, connecting to selective prediction and rejection learning. Our contributions are threefold: (i) theoretical guarantees under perfect validation, (ii) excess-risk bounds under imperfect audits, and (iii) tractability analysis. Empirically, AoU improves both accuracy and faithfulness on GSM8K, MultiArith, and SVAMP, achieving up to +30% gains on GSM8K, +45% on MultiArith, and consistent +20--28% improvements on SVAMP over Chain-of-Thought, Self-Consistency, and CoT-Decoding. Code is available at https://anonymous.4open.science/r/audit-of-understanding-E28B.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、しばしば、一貫性があるように見えるが、支持できない仮定を伴って推論トレースを生成し、幻覚的な結論をもたらす。
以前の研究は主に事実の幻覚に対処するか、あるいはポストホックの検証に依存しており、推論によって引き起こされる幻覚はほとんど未修正のままである。
AoU(Audit-of-Understanding) は,(1) クエリを候補仮定に分解し,(2) サポートを監査し,(3) 検証されたサブセットにのみ条件付き推論を行う。
形式的には、AoU は \emph{posterior-constrained inference} であり、選択的予測と拒絶学習に接続する。
私たちの貢献は3倍です。
一 完全検証の理論的保証
二 不完全監査による過度リスク境界
(三)トラクタビリティ分析。
経験的に、AoUはGSM8K、MultiArith、SVAMPの正確性と忠実性の両方を改善し、GSM8Kの最大30%のゲイン、MultiArithの+45%、Chain-of-Thought、Self-Consistency、CoT-Decodingに対するSVAMPの一貫性+20~28%の改善を実現している。
コードはhttps://anonymous.4open.science/r/audit-of-understanding-E28Bで公開されている。
関連論文リスト
- Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [4.158412539499328]
大規模言語モデル(LLM)のための分散推論のための公開検証プロトコルを提案する。
同一GPUワーカのセット上で両方のロールを多重化する同型推論検証ネットワークを導入する。
我々は形式的なゲーム理論解析を提供し、インセンティブの下では、正直な推論と検証がナッシュ均衡を構成することを証明した。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications [18.138452572457552]
iAuditは、正当化を伴う直感的なスマートコントラクト監査のためのフレームワークである。
263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。
論文 参考訳(メタデータ) (2024-03-24T09:26:53Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework [26.7264686036634]
大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
論文 参考訳(メタデータ) (2023-05-05T03:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。