論文の概要: Towards a Universal Causal Reasoner
- arxiv url: http://arxiv.org/abs/2605.24873v1
- Date: Sun, 24 May 2026 05:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.488811
- Title: Towards a Universal Causal Reasoner
- Title(参考訳): ユニバーサル因果共振器を目指して
- Authors: Qirun Dai, Xiao Liu, Jiawei Zhang, Dylan Zhang, Hao Peng, Chenhao Tan,
- Abstract要約: 我々はPearlのCausal Ladderにまたがる18の因果クエリタイプに対処するデータ生成フレームワークUniCoを提案する。
UniCoは正確な因果推論で回答を根拠とし、推論ショートカットでケースをフィルタリングする。
We show that UniCo-trained models showed consistent to faithful reasoning traces, out out the base model by average of 20.2% in faithfulness metrics。
- 参考スコア(独自算出の注目度): 26.784442577804086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the importance of causal reasoning, training LLMs to reason causally remains underexplored. Existing data efforts mostly focus on benchmarking LLMs on specific aspects of causality, making them less suitable for training generalizable causal reasoners. To address this, we propose UniCo, a data generation framework that both (1) addresses 18 causal query types across Pearl's Causal Ladder and (2) translates natively symbolic examples into code and natural language forms to simulate real-world use cases where causal terms are not explicitly specified. To ensure data quality, UniCo grounds answers with exact causal inference and filters cases with reasoning shortcuts. Upon supervised finetuning with 66.6K UniCo-generated instances, Qwen3-4B, Qwen3-8B and Olmo-3-7B-Instruct achieve an average of 22.9% improvements across all 18 in-distribution query types, and 8.1% over state-of-the-art causal data generation frameworks on 7 established causal benchmarks outside the training distribution. More importantly, in real-world medical understanding, legal decision, and tabular reasoning, UniCo-trained models consistently display more faithful reasoning traces, outperforming the base models by an average of 20.2% in faithfulness metrics. These suggest that causality-centered training not only strengthens causal reasoning, but also equips LLMs with a causal mindset in general reasoning tasks.
- Abstract(参考訳): 因果推論の重要性にもかかわらず、因果推論のためのLSMの訓練は未熟のままである。
既存のデータ処理は、主に因果関係の特定の側面に関するLCMのベンチマークに重点を置いており、一般化可能な因果推論の訓練には適さない。
そこで本研究では,(1)PearlのCausal Ladderにまたがる18種類の因果クエリに対処するデータ生成フレームワークUniCoを提案する。
データ品質を保証するため、UniCoは正確な因果推論と推論ショートカットでケースをフィルタリングする。
Qwen3-4B、Qwen3-8B、Olmo-3-7B-Instructは66.6KのUniCo生成インスタンスで微調整を行い、トレーニングディストリビューションの外で確立された7つの因果ベンチマーク上の最先端の因果データ生成フレームワークよりも平均22.9%改善した。
さらに重要なことは、現実世界の医学的理解、法的判断、および表象的推論において、UniCoで訓練されたモデルは一貫してより忠実な推論の痕跡を示し、基礎モデルを平均20.2%の忠実度指標で上回っていることである。
これらのことは、因果関係中心の訓練が因果関係の推論を強化するだけでなく、概して因果関係の推論タスクにおける因果関係の考え方も備えていることを示唆している。
関連論文リスト
- Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - NoisyCausal: A Benchmark for Evaluating Causal Reasoning Under Structured Noise [33.130357221784166]
自然言語の因果推論には、関連する変数を特定し、それらの相互作用を理解し、効果や介入について推論する必要がある。
構造雑音下での因果推論を評価するための新しいベンチマークであるNoisyCausalを紹介する。
これらの課題に対処するために,LLMと明示的な因果構造を組み合わせたモジュラー推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-05T21:26:01Z) - CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - RATIONALYST: Mining Implicit Rationales for Process Supervision of Reasoning [41.9992614617405]
本稿では,事前学習に基づく推論のプロセス・スーパービジョンのモデルであるRATIONALYSTを紹介する。
We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。
LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。
論文 参考訳(メタデータ) (2024-10-01T20:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。