論文の概要: Linear-LLM-SCM: Benchmarking LLMs for Coefficient Elicitation in Linear-Gaussian Causal Models
- arxiv url: http://arxiv.org/abs/2602.10282v1
- Date: Tue, 10 Feb 2026 20:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.275437
- Title: Linear-LLM-SCM: Benchmarking LLMs for Coefficient Elicitation in Linear-Gaussian Causal Models
- Title(参考訳): 線形-LLM-SCM:線形-ガウス因果モデルにおける係数除去のためのLLMのベンチマーク
- Authors: Kanta Yamaoka, Sumantrak Mukherjee, Thomas Gärtner, David Antony Selby, Stefan Konigorski, Eyke Hüllermeier, Viktor Bengs, Sebastian Josef Vollmer,
- Abstract要約: 大型言語モデル(LLM)を評価するためのプラグイン・アンド・プレイベンチマークフレームワークであるLinear-LLM-SCMを紹介する。
このようなベンチマークタスクにおける課題、すなわち、いくつかのモデルにおける結果の強みと、連続的なドメインの急激なエッジによるDAGの誤特定に対する感受性を示す。
また,ベンチマークフレームワークをオープンソースとして公開し,DAGと既製のLCMのプラグイン・アンド・プレイを,各ドメインで積極的に評価することができるようにした。
- 参考スコア(独自算出の注目度): 28.281361951823765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown potential in identifying qualitative causal relations, but their ability to perform quantitative causal reasoning -- estimating effect sizes that parametrize functional relationships -- remains underexplored in continuous domains. We introduce Linear-LLM-SCM, a plug-and-play benchmarking framework for evaluating LLMs on linear Gaussian structural causal model (SCM) parametrization when the DAG is given. The framework decomposes a DAG into local parent-child sets and prompts an LLM to produce a regression-style structural equation per node, which is aggregated and compared against available ground-truth parameters. Our experiments show several challenges in such benchmarking tasks, namely, strong stochasticity in the results in some of the models and susceptibility to DAG misspecification via spurious edges in the continuous domains. Across models, we observe substantial variability in coefficient estimates for some settings and sensitivity to structural and semantic perturbations, highlighting current limitations of LLMs as quantitative causal parameterizers. We also open-sourced the benchmarking framework so that researchers can utilize their DAGs and any off-the-shelf LLMs plug-and-play for evaluation in their domains effortlessly.
- Abstract(参考訳): 大規模言語モデル(LLM)は、定性的因果関係を同定する可能性を示しているが、定量的因果推論(機能的関係をパラメータ化する効果の大きさを推定する)を行う能力は、連続的な領域においてまだ過小評価されていない。
DAGが与えられると、線形ガウス構造因果モデル(SCM)によるLCMの評価を行うためのプラグイン・アンド・プレイベンチマークフレームワークであるLinear-LLM-SCMを導入する。
このフレームワークは、DAGをローカルな親子集合に分解し、LLMにノードごとの回帰型構造方程式を生成するよう促す。
実験では, 連続領域の急激なエッジによるDAGの不特定性や, 結果の確率性, およびDAGの不特定性に対する感受性など, ベンチマークタスクにおけるいくつかの課題を示す。
モデル全体で、いくつかの設定に対する係数推定のかなりの変動と構造的および意味的摂動に対する感受性を観察し、LLMの現在の限界を定量的因果パラメーターとして強調する。
また,ベンチマークフレームワークをオープンソースとして公開し,DAGや既製のLCMのプラグイン・アンド・プレイを,ドメイン内の評価に役立てることができるようにした。
関連論文リスト
- Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - Estimating Causal Effects in Gaussian Linear SCMs with Finite Data [14.222953715948272]
観測データから因果効果を推定することは因果推論の根本的な課題である。
本稿では,ガウス線形構造因果モデル(GL-SCM)における因果効果の推定に焦点をあてる。
本稿では,有限観測試料から因果効果パラメータを同定し,因果効果を推定できるEMに基づく新しい推定法を提案する。
論文 参考訳(メタデータ) (2026-01-08T07:37:10Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - TSLiNGAM: DirectLiNGAM under heavy tails [0.0]
本研究では、観測データに基づく因果モデルのDAGを同定する新しい手法TSLiNGAMを提案する。
TSLiNGAMは、変数間の因果方向を識別するために単純なOLS回帰を利用する人気アルゴリズムであるDirectLiNGAMをベースにしている。
重み付きおよび歪んだデータに対して著しく優れた性能を示し、より小さなサンプル効率を示す。
論文 参考訳(メタデータ) (2023-08-10T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。