論文の概要: Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification
- arxiv url: http://arxiv.org/abs/2601.21210v1
- Date: Thu, 29 Jan 2026 03:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.540923
- Title: Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification
- Title(参考訳): シンボリック検証によるLLM因果推論における隠れた誤りの発見
- Authors: Paul He, Yinya Huang, Mrinmaya Sachan, Zhijing Jin,
- Abstract要約: DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
- 参考スコア(独自算出の注目度): 56.51953062869371
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly being applied to tasks that involve causal reasoning. However, current benchmarks often rely on string matching or surface-level metrics that do not capture whether the output of a model is formally valid under the semantics of causal reasoning. To address this, we propose DoVerifier, a simple symbolic verifier that checks whether LLM-generated causal expressions are derivable from a given causal graph using rules from do-calculus and probability theory. This allows us to recover correct answers to causal queries that would otherwise be marked incorrect due to superficial differences in their causal semantics. Our evaluations on synthetic data and causal QA benchmarks show that DoVerifier more accurately captures semantic correctness of causal reasoning traces, offering a more rigorous and informative way to evaluate LLMs on causal reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、因果推論を含むタスクに適用されつつある。
しかしながら、現在のベンチマークは、しばしば文字列マッチングや、因果推論のセマンティクスの下でモデルの出力が正式に有効であるかどうかをキャプチャしない表面レベルのメトリクスに依存している。
そこで本研究では, LLM 生成因果表現が与えられた因果グラフから導出可能であるかどうかを,do-calculus と probability theory の規則を用いて検証する簡易な記号検証器 DoVerifier を提案する。
これにより、因果的意味論における表面的差異により、それ以外は誤記されるであろう因果的クエリに対する正しい回答を復元することができる。
解析データと因果QAのベンチマークによる評価から,DoVerifierは因果推論トレースのセマンティックな正当性をより正確に把握し,因果推論のLLMを評価するための厳密で情報的な方法を提供する。
関連論文リスト
- Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - Automated Theorem Provers Help Improve Large Language Model Reasoning [0.18416014644193066]
ニューロシンボリック・アーキテクチャーによっていかに精度が向上できるかを示す。
構文的および意味的エラーカテゴリのフレームワークを定義する。
我々は,構文的および意味的誤りを自動的に修正する機能を備えた手法を拡張した。
論文 参考訳(メタデータ) (2024-08-07T01:03:56Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。