論文の概要: Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency
- arxiv url: http://arxiv.org/abs/2602.16787v1
- Date: Wed, 18 Feb 2026 19:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.292151
- Title: Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency
- Title(参考訳): より良い思考感: 二重対面一貫性で因果関係を推論する学習
- Authors: Victoria Lin, Xinnuo Xu, Rachel Lawrence, Risa Ueno, Amit Sharma, Javier Gonzalez, Niranjani Prasad,
- Abstract要約: 本稿では,大規模言語モデルの因果的推論能力の測定と指導を行う軽量な推論時間手法であるDouble counterfactual consistency (DCC)を紹介する。
我々は,様々な指導的LCMの因果推論能力について,多岐にわたる推論課題と介入について評価した。
- 参考スコア(独自算出の注目度): 11.717694690378686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their strong performance on reasoning benchmarks, large language models (LLMs) have proven brittle when presented with counterfactual questions, suggesting weaknesses in their causal reasoning ability. While recent work has demonstrated that labeled counterfactual tasks can be useful benchmarks of LLMs' causal reasoning, producing such data at the scale required to cover the vast potential space of counterfactuals is limited. In this work, we introduce double counterfactual consistency (DCC), a lightweight inference-time method for measuring and guiding the ability of LLMs to reason causally. Without requiring labeled counterfactual data, DCC verifies a model's ability to execute two important elements of causal reasoning: causal intervention and counterfactual prediction. Using DCC, we evaluate the causal reasoning abilities of various leading LLMs across a range of reasoning tasks and interventions. Moreover, we demonstrate the effectiveness of DCC as a training-free test-time rejection sampling criterion and show that it can directly improve performance on reasoning tasks across multiple model families.
- Abstract(参考訳): 推論ベンチマークの性能は高いが、大きな言語モデル(LLM)は、反ファクトな質問を提示すると不安定であることが証明され、因果推論能力の弱点が示唆されている。
近年の研究では、ラベル付き反事実的タスクがLLMの因果推論の有用なベンチマークとなることが実証されているが、反事実的タスクの潜在的な空間をカバーするのに必要なスケールでそのようなデータを生成することは限られている。
本研究では,LLMの因果的推論能力の測定と導出のための軽量な推論時間法である,二重対実整合(DCC)を導入する。
ラベル付き反事実データを必要としないDCCは、因果推論の2つの重要な要素である因果介入と反事実予測を実行するモデルの能力を検証する。
各種LLMの因果推論能力は,DCCを用いて多種多様な推論タスクと介入によって評価した。
さらに,DCCをトレーニング不要なテスト時間拒否サンプリング基準としての有効性を実証し,複数のモデルファミリ間の推論タスクにおいて,直接的に性能を向上させることを示す。
関連論文リスト
- Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference [16.706959860667133]
大規模言語モデル(LLM)が厳密で信頼性の高い統計的因果推論を扱えるかどうかは不明である。
CausalPitfallsベンチマークは、信頼できる因果推論システムの開発を進めるための重要なガイダンスと定量的指標を提供する。
論文 参考訳(メタデータ) (2025-05-19T23:06:00Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。
我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文 参考訳(メタデータ) (2025-02-16T06:19:37Z) - CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Causal Significance and Consistency [11.144164626192904]
チェーン・オブ・シンキング(CoT)のような連鎖型手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T08:28:23Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。