論文の概要: AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.08750v1
- Date: Tue, 13 May 2025 17:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.686301
- Title: AC-Reason: Towards Theory-Guided Actual Causality Reasoning with Large Language Models
- Title(参考訳): AC-Reason:大規模言語モデルを用いた理論誘導実例因果推論を目指して
- Authors: Yanxi Zhang, Xin Cong, Zhong Zhang, Xiao Liu, Dongyan Zhao, Yesai Wu,
- Abstract要約: 本稿では,ACシナリオ内の因果関係事象を識別する半形式推論フレームワークであるAC-Reasonを提案する。
AC-Reasonは、それらの公式因果係数の値を推論し、理論誘導アルゴリズムを通じてACクエリに説明とともに答える。
我々は,Big-Bench Hard Causal Judgment (BBH-CJ)をベースとした新たなベンチマークであるAC-Benchを紹介する。
- 参考スコア(独自算出の注目度): 31.86608751067385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Actual causality (AC), a fundamental aspect of causal reasoning (CR), is responsible for attribution and responsibility assignment in real-world scenarios. However, existing LLM-based methods lack grounding in formal AC theory, resulting in limited interpretability. Therefore, we propose AC-Reason, a semi-formal reasoning framework that identifies causally relevant events within an AC scenario, infers the values of their formal causal factors (e.g., sufficiency, necessity, and normality), and answers AC queries via a theory-guided algorithm with explanations. While AC-Reason does not explicitly construct a causal graph, it operates over variables in the underlying causal structure to support principled reasoning. To enable comprehensive evaluation, we introduce AC-Bench, a new benchmark built upon and substantially extending Big-Bench Hard Causal Judgment (BBH-CJ). AC-Bench comprises ~1K carefully annotated samples, each with detailed reasoning steps and focuses solely on actual causation. The case study shows that synthesized samples in AC-Bench present greater challenges for LLMs. Extensive experiments on BBH-CJ and AC-Bench show that AC-Reason consistently improves LLM performance over baselines. On BBH-CJ, all tested LLMs surpass the average human rater accuracy of 69.60%, with GPT-4 + AC-Reason achieving 75.04%. On AC-Bench, GPT-4 + AC-Reason again achieves the highest accuracy of 71.82%. AC-Bench further enables fine-grained analysis of reasoning faithfulness, revealing that only Qwen-2.5-72B-Instruct, Claude-3.5-Sonnet, and GPT-4o exhibit faithful reasoning, whereas GPT-4 tends to exploit shortcuts. Finally, our ablation study proves that integrating AC theory into LLMs is highly effective, with the proposed algorithm contributing the most significant performance gains.
- Abstract(参考訳): 因果推論(CR)の基本的側面である実際の因果性(AC)は、現実のシナリオにおける帰属と責任の割り当てに責任がある。
しかし、既存の LLM ベースの手法は形式的な AC 理論の基盤を欠いているため、解釈性は限られている。
そこで本稿では,ACシナリオ内の因果関係事象を同定する半形式的推論フレームワークであるAC-Reasonを提案する。
AC-Reasonは因果グラフを明示的に構築していないが、根底にある因果構造における変数を演算し、原理的推論をサポートする。
本稿では, BBH-CJ(Big-Bench Hard Causal Judgment)を実質的に拡張した新しいベンチマークであるAC-Benchを紹介する。
AC-Bench は ~1K の注意深い注釈付きサンプルで構成され、それぞれに詳細な推論ステップがあり、実際の因果関係にのみ焦点をあてている。
ケーススタディでは、AC-ベンチで合成した試料がLLMにとって大きな課題を呈している。
BBH-CJ と AC-Bench の大規模な実験により、AC-Reason はベースラインよりも LLM の性能を一貫して改善することを示した。
BBH-CJでは、全ての試験されたLCMは平均的な人間レートの精度を69.60%を超え、GPT-4 + AC-Reasonは75.04%に達した。
AC-Benchでは、GPT-4 + AC-Reasonが71.82%の精度で再び達成される。
AC-Benchはさらに、Qwen-2.5-72B-Instruct、Claude-3.5-Sonnet、GPT-4oのみが忠実な推論を示し、GPT-4はショートカットを利用する傾向にあることを示した。
最後に,我々は,AC理論をLSMに組み込むことが極めて効果的であることを証明し,提案アルゴリズムが性能向上に寄与することを示した。
関連論文リスト
- CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation [3.8808821719659763]
適応検索拡張生成(CDF-RAG)のための因果動的フィードバックを導入する。
CDF-RAGは、クエリを反復的に洗練し、構造化因果グラフを検索し、相互接続された知識ソース間のマルチホップ因果推論を可能にする。
我々は,CDF-RAGを4つの多様なデータセット上で評価し,既存のRAG法よりも応答精度と因果正性を向上させる能力を示した。
論文 参考訳(メタデータ) (2025-04-17T01:15:13Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。
出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。
提案手法は,膨大な因果クエリ作成を容易にする。
論文 参考訳(メタデータ) (2024-11-29T06:37:13Z) - CauseJudger: Identifying the Cause with LLMs for Abductive Logical Reasoning [7.893032104130882]
causeJudger (CJ) と呼ばれる帰納的論理的推論のための新しいフレームワークを提案する。
CJは思考を逆から前方へ変換し、無関係な情報を除去することで、起こりうる原因の真偽を特定する。
本実験では, 総合実験とアブレーション実験によるCJの有効性と, データセットのケーススタディ, 公開データセットの再構築について検討した。
論文 参考訳(メタデータ) (2024-09-09T12:30:43Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Causal Inference Principles for Reasoning about Commonsense Causality [93.19149325083968]
コモンセンス因果推論(Commonsense causality reasoning)は、平均的な人によって妥当と見なされる自然言語記述における妥当な原因と影響を特定することを目的としている。
既存の作業は通常、深い言語モデルに全面的に依存しており、共起を混同する可能性がある。
古典的因果原理に触発され,我々はCCRの中心的問題を明確にし,観察研究と自然言語における人間の対象間の類似性を引き出す。
本稿では,時間信号をインシデント・インシデント・インシデント・インシデント・インシデントとして活用する新しいフレームワークであるROCKをReason O(A)bout Commonsense K(C)ausalityに提案する。
論文 参考訳(メタデータ) (2022-01-31T06:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。