論文の概要: Audit-of-Understanding: Posterior-Constrained Inference for Mathematical Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2510.10252v2
- Date: Sat, 18 Oct 2025 10:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.645119
- Title: Audit-of-Understanding: Posterior-Constrained Inference for Mathematical Reasoning in Language Models
- Title(参考訳): オーディット・オブ・アンダード:言語モデルにおける数学的推論のための後制約推論
- Authors: Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban,
- Abstract要約: AoU(Audit-of-Understanding)は,3つのフェーズを通じて,検証済みの前提に対する推論を制約するフレームワークである。
AoUは後天的に制約された推論であり、選択的予測と拒絶学習に繋がる。
コントリビューションは, (i) 完全検証の理論的保証, (ii) 不完全監査の過剰リスク境界, (iii) トラクタビリティ解析の3つである。
- 参考スコア(独自算出の注目度): 2.453830698820308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate reasoning traces that appear coherent but rest on unsupported assumptions, leading to hallucinated conclusions. Prior work mainly addresses factual hallucinations or relies on post-hoc verification, leaving reasoning-induced hallucinations largely unaddressed. We propose Audit-of-Understanding (AoU), a framework that constrains inference to validated premises through three phases: (1) decomposing a query into candidate assumptions, (2) auditing their support, and (3) conditioning inference only on the validated subset. Formally, AoU is \emph{posterior-constrained inference}, connecting to selective prediction and rejection learning. Our contributions are threefold: (i) theoretical guarantees under perfect validation, (ii) excess-risk bounds under imperfect audits, and (iii) tractability analysis. Empirically, AoU improves both accuracy and faithfulness on GSM8K, MultiArith, and SVAMP, achieving up to +30% gains on GSM8K, +45% on MultiArith, and consistent +20--28% improvements on SVAMP over Chain-of-Thought, Self-Consistency, and CoT-Decoding. Code is available at https://anonymous.4open.science/r/audit-of-understanding-E28B.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、しばしば、一貫性があるように見えるが、支持できない仮定を伴って推論トレースを生成し、幻覚的な結論をもたらす。
以前の研究は主に事実の幻覚に対処するか、あるいはポストホックの検証に依存しており、推論によって引き起こされる幻覚はほとんど未修正のままである。
AoU(Audit-of-Understanding) は,(1) クエリを候補仮定に分解し,(2) サポートを監査し,(3) 検証されたサブセットにのみ条件付き推論を行う。
形式的には、AoU は \emph{posterior-constrained inference} であり、選択的予測と拒絶学習に接続する。
私たちの貢献は3倍です。
一 完全検証の理論的保証
二 不完全監査による過度リスク境界
(三)トラクタビリティ分析。
経験的に、AoUはGSM8K、MultiArith、SVAMPの正確性と忠実性の両方を改善し、GSM8Kの最大30%のゲイン、MultiArithの+45%、Chain-of-Thought、Self-Consistency、CoT-Decodingに対するSVAMPの一貫性+20~28%の改善を実現している。
コードはhttps://anonymous.4open.science/r/audit-of-understanding-E28Bで公開されている。
関連論文リスト
- Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought Explanations [60.27156500679296]
系統的な推論連鎖の摂動とデリバリートーンの操作による道徳シナリオにおけるCoT(Chain-of-Thought)の説明の役割について検討した。
1) 利用者は, 根拠に欠陥がある場合でも, 信頼感を保ち, 結果合意を信頼する傾向がみられた。
これらの結果は、CoTの説明が同時に明確化と誤解を招き、視覚的信頼よりも精査と批判的思考を奨励する説明を提供するNLPシステムの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-15T02:38:49Z) - AI Annotation Orchestration: Evaluating LLM verifiers to Improve the Quality of LLM Annotations in Learning Analytics [0.17240671897505613]
大規模言語モデル(LLM)は、学習相互作用の注釈付けにますます使われていますが、信頼性に関する懸念は彼らのユーティリティを制限します。
検証指向のオーケストレーション・プロンプティングモデルが自身のラベル(自己検証)をチェックしたり、相互に監査(相互検証)するかどうかを検証し、学習談話の質的コーディングを向上させるかを検証する。
論文 参考訳(メタデータ) (2025-11-12T22:35:36Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [4.158412539499328]
大規模言語モデル(LLM)のための分散推論のための公開検証プロトコルを提案する。
同一GPUワーカのセット上で両方のロールを多重化する同型推論検証ネットワークを導入する。
我々は形式的なゲーム理論解析を提供し、インセンティブの下では、正直な推論と検証がナッシュ均衡を構成することを証明した。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications [18.138452572457552]
iAuditは、正当化を伴う直感的なスマートコントラクト監査のためのフレームワークである。
263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。
論文 参考訳(メタデータ) (2024-03-24T09:26:53Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework [26.7264686036634]
大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
論文 参考訳(メタデータ) (2023-05-05T03:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。