論文の概要: Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy
- arxiv url: http://arxiv.org/abs/2512.13725v1
- Date: Sat, 13 Dec 2025 17:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.398114
- Title: Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy
- Title(参考訳): 圧縮因果推論:量子化とグラフRAGがインターベンショナルおよび非現実的精度に及ぼす影響
- Authors: Steve Nwaiwu, Nipat Jongsawat, Anucha Tungkasthan,
- Abstract要約: 本研究は, パールズ・コーサル・ラダーの全3レベルにわたる定量化効果を系統的に評価した。
Llama 3 8Bのラングレベルの精度は、量子化下では広く安定であり、NF4は全体の1%未満の劣化を示した。
CRASSベンチマークの実験では、既存のコモンセンスの反事実データセットには、量子化による推論ドリフトを明らかにするのに必要な構造感度が欠如していることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal reasoning in Large Language Models spanning association, intervention, and counterfactual inference is essential for reliable decision making in high stakes settings. As deployment shifts toward edge and resource constrained environments, quantized models such as INT8 and NF4 are becoming standard. Yet the impact of precision reduction on formal causal reasoning is poorly understood. To our knowledge, this is the first study to systematically evaluate quantization effects across all three levels of Pearls Causal Ladder. Using a 3000 sample stratified CLadder benchmark, we find that rung level accuracy in Llama 3 8B remains broadly stable under quantization, with NF4 showing less than one percent overall degradation. Interventional queries at rung 2 are the most sensitive to precision loss, whereas counterfactual reasoning at rung 3 is comparatively stable but exhibits heterogeneous weaknesses across query types such as collider bias and backdoor adjustment. Experiments on the CRASS benchmark show near identical performance across precisions, indicating that existing commonsense counterfactual datasets lack the structural sensitivity needed to reveal quantization induced reasoning drift. We further evaluate Graph Retrieval Augmented Generation using ground truth causal graphs and observe a consistent improvement in NF4 interventional accuracy of plus 1.7 percent, partially offsetting compression related degradation. These results suggest that causal reasoning is unexpectedly robust to four bit quantization, graph structured augmentation can selectively reinforce interventional reasoning, and current counterfactual benchmarks fail to capture deeper causal brittleness. This work provides an initial empirical map of compressed causal reasoning and practical guidance for deploying efficient and structurally supported causal AI systems.
- Abstract(参考訳): 大規模言語モデルにおける因果推論は、高い利害関係における信頼性の高い意思決定に不可欠である。
デプロイメントがエッジとリソースの制約のある環境に移行するにつれ、INT8やNF4といった量子化モデルは標準になりつつある。
しかし, 精度低下が形式的因果推論に与える影響はよく分かっていない。
我々の知る限り、この研究はパールズ・コーサル・ラダーの3つのレベル全てにわたる量子化効果を体系的に評価した最初の研究である。
3000サンプル層状CLadderベンチマークを用いて,Llama 3 8Bのラングレベルの精度は量子化下では安定であり,NF4は全体の1%未満の劣化を示した。
rung 2のインターベンショナルクエリは精度損失に最も敏感であるのに対して、rung 3の逆ファクト推論は比較的安定しているが、コライダーバイアスやバックドア調整のようなクエリタイプで不均一な弱点を示す。
CRASSベンチマークの実験では、既存のコモンセンスの反事実データセットには、量子化による推論ドリフトを明らかにするのに必要な構造感度が欠如していることが示されている。
さらに、基底真理因果グラフを用いてグラフ検索拡張生成を評価し、圧縮関連劣化を部分的に相殺する1.7%のNF4介入精度を一貫した改善を観察する。
これらの結果から,因果推論は4ビット量子化に対して予期せぬ堅牢性を示し,グラフ構造強化は介入推論を選択的に強化し,現行の因果推論ベンチマークでは深い因果脆度を捉えられなかったことが示唆された。
この研究は、圧縮された因果推論の最初の経験的マップと、効率的で構造的に支持された因果AIシステムをデプロイするための実践的なガイダンスを提供する。
関連論文リスト
- Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Structured Thinking Matters: Improving LLMs Generalization in Causal Inference Tasks [0.7988085110283119]
Corr2Cause のデータセットによる最近の結果は、最先端の LLM がランダムベースラインをわずかに上回っていることを示している。
我々は、構造化知識グラフを構築するためのモデルを導くことによって、その思考を構造化する能力を備えたモデルを提供する。
Qwen3-32Bモデル(推論モデル)を用いたCorr2Causeデータセットベンチマークのテストサブセットの実験は、標準的なダイレクトプロンプトメソッドよりも大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-05-23T15:37:40Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。