論文の概要: Can Post-Training Transform LLMs into Causal Reasoners?
- arxiv url: http://arxiv.org/abs/2602.06337v1
- Date: Fri, 06 Feb 2026 03:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.204392
- Title: Can Post-Training Transform LLMs into Causal Reasoners?
- Title(参考訳): 訓練後LSMを因果共振器に変換できるか?
- Authors: Junqi Chen, Sirui Chen, Chaochao Lu,
- Abstract要約: 因果推論は意思決定には不可欠だが、非専門家には依然として挑戦的である。
CauGymは、トレーニング用の7つのコア因果タスクと5つの多様なテストセットからなる包括的なデータセットである。
本データセットを用いて,SFT,DPO,KTO,PPO,GRPOの5つのポストトレーニングアプローチを評価する。
- 参考スコア(独自算出の注目度): 20.488775215830064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal inference is essential for decision-making but remains challenging for non-experts. While large language models (LLMs) show promise in this domain, their precise causal estimation capabilities are still limited, and the impact of post-training on these abilities is insufficiently explored. This paper examines the extent to which post-training can enhance LLMs' capacity for causal inference. We introduce CauGym, a comprehensive dataset comprising seven core causal tasks for training and five diverse test sets. Using this dataset, we systematically evaluate five post-training approaches: SFT, DPO, KTO, PPO, and GRPO. Across five in-domain and four existing benchmarks, our experiments demonstrate that appropriate post-training enables smaller LLMs to perform causal inference competitively, often surpassing much larger models. Our 14B parameter model achieves 93.5% accuracy on the CaLM benchmark, compared to 55.4% by OpenAI o3. Furthermore, the post-trained LLMs exhibit strong generalization and robustness under real-world conditions such as distribution shifts and noisy data. Collectively, these findings provide the first systematic evidence that targeted post-training can produce reliable and robust LLM-based causal reasoners. Our data and GRPO-model are available at https://github.com/OpenCausaLab/CauGym.
- Abstract(参考訳): 因果推論は意思決定には不可欠だが、非専門家には依然として挑戦的である。
大規模言語モデル(LLM)はこの領域で有望であるが、正確な因果推定能力はまだ限られており、これらの能力に対するポストトレーニングの影響は十分に調査されていない。
本稿では,後学習がLLMの因果推論能力に与える影響について検討する。
CauGymは、トレーニング用の7つのコア因果タスクと5つの多様なテストセットからなる包括的なデータセットである。
本データセットを用いて,SFT,DPO,KTO,PPO,GRPOの5つのポストトレーニングアプローチを体系的に評価した。
5つのドメイン内および4つの既存のベンチマークにおいて、適切なポストトレーニングを行うことで、より小さなLSMが因果推論を競合的に実行し、より大規模なモデルを上回ることが実証された。
われわれの14BパラメータモデルはCaLMベンチマークで93.5%の精度を達成しており、OpenAI o3では55.4%である。
さらに,学習後LLMは分布シフトやノイズデータなどの実環境下での強い一般化とロバスト性を示す。
これらの知見は, 総合的に, 訓練後の目標が, LLMベースの因果推論を信頼性, 堅牢に作成できることを示す最初の体系的証拠となる。
私たちのデータとGRPO-modelはhttps://github.com/OpenCausaLab/CauGym.comで公開されています。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Towards Reasoning Ability of Small Language Models [7.12809444398765]
本稿では,SLMの推論能力を体系的に評価し,研究する最初のベンチマークであるThinkSLMを紹介する。
本研究は、17の推論ベンチマークで6つの主要なモデルファミリーから72種類のSLMを評価した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。