論文の概要: Formal Reasoning for Intelligent QA Systems: A Case Study in the Educational Domain
- arxiv url: http://arxiv.org/abs/2509.11572v1
- Date: Mon, 15 Sep 2025 04:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.147228
- Title: Formal Reasoning for Intelligent QA Systems: A Case Study in the Educational Domain
- Title(参考訳): 知的QAシステムのための形式的推論--教育領域を事例として
- Authors: Tuan Bui, An Nguyen, Phat Thai, Minh Hua, Ngan Pham L. N., Ngan Pham T. B., Dung Le, Long Nguyen, Thanh-Tung Tran, Thang Bui, Tho Quan,
- Abstract要約: MCFR(Model Checking for Formal Reasoning)は,LLMとモデルチェックを統合し,特性検証を支援するニューラルシンボリックフレームワークである。
MCFRは自然言語を形式的な仕様に変換し、遷移モデル上で検証する。
以上の結果から,MCFRは信頼性と解釈可能性の向上を図り,高吸収閉領域アプリケーションにおける検証可能なQAへの道のりを提供する。
- 参考スコア(独自算出の注目度): 4.824850721721513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning is essential for closed-domain QA systems in which procedural correctness and policy compliance are critical. While large language models (LLMs) have shown strong performance on many reasoning tasks, recent work reveals that their reasoning traces are often unfaithful - serving more as plausible justifications than as causally grounded derivations. Efforts to combine LLMs with symbolic engines (e.g., Prover9, Z3) have improved reliability but remain limited to static forms of logic, struggling with dynamic, state-based reasoning such as multi-step progressions and conditional transitions. In this paper, we propose MCFR (Model Checking for Formal Reasoning), a neuro-symbolic framework that integrates LLMs with model checking to support property verification. MCFR translates natural language into formal specifications and verifies them over transition models. To support evaluation, we introduce EduMC-QA, a benchmark dataset grounded in real academic procedures. Our results show that MCFR improves reasoning faithfulness and interpretability, offering a viable path toward verifiable QA in high-stakes closed-domain applications. In addition to evaluating MCFR, we compare its performance with state-of-the-art LLMs such as ChatGPT, DeepSeek, and Claude to contextualize its effectiveness.
- Abstract(参考訳): 手続き的正当性とポリシー遵守が重要であるクローズドドメインQAシステムには推論が不可欠である。
大規模言語モデル(LLM)は、多くの推論タスクにおいて強いパフォーマンスを示しているが、最近の研究は、それらの推論の痕跡は、因果的根拠に基づく派生よりも、妥当な正当化として機能する、という、しばしば不信であることを示している。
LLMとシンボリックエンジン(例えばProver9、Z3)を組み合わせる努力は信頼性が向上したが、静的な論理形式に限られており、マルチステップ進行や条件遷移のような動的で状態ベースの推論に苦慮している。
本稿では,LLMとモデル検査を統合し,特性検証を支援するニューラルシンボリックフレームワークMCFRを提案する。
MCFRは自然言語を形式的な仕様に変換し、遷移モデル上で検証する。
評価を支援するために,実際の学術的手順に基づくベンチマークデータセットであるEduMC-QAを導入する。
以上の結果から,MCFRは信頼性と解釈可能性の向上を図り,高吸収閉領域アプリケーションにおける検証可能なQAへの道のりを提供する。
MCFRの評価に加えて、ChatGPT、DeepSeek、Claudeといった最先端のLLMと比較して、その効果を文脈的に評価する。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - How Is LLM Reasoning Distracted by Irrelevant Context? An Analysis Using a Controlled Benchmark [29.13320560500717]
分散文脈をもつ小学校数学は、体系的に制御された文脈 (IC) に対するLarge Language Models (LLM) 推論を評価するためのベンチマークである。
実験の結果,LLMはICに非常に敏感であり,推理経路の選択と算術精度の両方に影響を及ぼすことがわかった。
本稿では,プロセス報酬モデルを用いて,配当条件下でのロバスト性を高めるステップワイズツリー探索を提案する。
論文 参考訳(メタデータ) (2025-05-24T15:56:22Z) - Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness [3.9930400744726273]
我々は,回答と推論の関係を調べるために,MATCHAという新しい評価フレームワークを設計する。
教育や医療といった分野では、推論は信頼性をモデル化するための鍵となる。
以上の結果から,LLMは論理的タスクよりも多段階・常識的タスクに対する入力摂動の脆弱性が大きいことが示唆された。
論文 参考訳(メタデータ) (2025-05-23T02:42:16Z) - Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering [14.298418197820912]
大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
論文 参考訳(メタデータ) (2025-05-18T01:34:34Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。