論文の概要: CALM: A Causal Analysis Language Model for Tabular Data in Complex Systems with Local Scores, Conditional Independence Tests, and Relation Attributes
- arxiv url: http://arxiv.org/abs/2510.09846v1
- Date: Fri, 10 Oct 2025 20:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.64775
- Title: CALM: A Causal Analysis Language Model for Tabular Data in Complex Systems with Local Scores, Conditional Independence Tests, and Relation Attributes
- Title(参考訳): CALM:局所スコア、条件付き独立テスト、関係属性を持つ複雑システムにおける語彙データの因果解析言語モデル
- Authors: Zhenjiang Fan, Zengyi Qin, Yuanning Zheng, Bo Xiong, Summer Han,
- Abstract要約: 観測データからの因果発見は生物学のような科学分野に不可欠である。
制約ベースのアプローチやスコアベースのアプローチを含む既存の手法は、重大な制限に直面している。
本稿では,表データに特化して設計された新しい因果解析言語CALMを紹介する。
- 参考スコア(独自算出の注目度): 15.298086464296235
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Causal discovery from observational data is fundamental to scientific fields like biology, where controlled experiments are often impractical. However, existing methods, including constraint-based (e.g., PC, causalMGM) and score-based approaches (e.g., NOTEARS), face significant limitations. These include an inability to resolve causal direction, restrictions to linear associations, sensitivity to violations of the faithfulness assumption, and inefficiency in searching vast hypothesis spaces. While large language models (LLMs) offer powerful reasoning capabilities, their application is hindered by a fundamental discrepancy: they are designed for text, while most causal data is tabular. To address these challenges, we introduce CALM, a novel causal analysis language model specifically designed for tabular data in complex systems. CALM leverages a Mamba-based architecture to classify causal patterns from pairwise variable relationships. It integrates a comprehensive suite of evidence, including local causal scores, conditional independence tests, and relational attributes, to capture a wide spectrum of linear, nonlinear, and conditional causal mechanisms. Trained on a diverse corpus of synthetic data (from linear, mixed, and nonlinear models) and 10 real-world biological datasets with rigorously validated causal relationships, our model ensures robustness and generalizability. Empirical evaluation demonstrates that CALM significantly outperforms existing methods in both simulation studies, achieving over 91% accuracy, and in a real-world application identifying causal factors in Hepatitis C virus progression. This work represents a significant step towards accurate and generalizable causal discovery by successfully adapting the pattern recognition capabilities of language models to the intricacies of tabular data.
- Abstract(参考訳): 観測データからの因果発見は、制御された実験がしばしば実用的でない生物学のような科学分野の基本である。
しかし、制約ベース(例えば、PC、因果MGM)やスコアベースのアプローチ(例えば、NOTEARS)を含む既存の手法は、重大な制限に直面している。
これには因果方向の解決ができないこと、線形関連の制限、忠実性の仮定の違反に対する感受性、広大な仮説空間の探索における非効率性が含まれる。
大きな言語モデル(LLM)は強力な推論機能を提供するが、それらのアプリケーションは基本的な相違によって妨げられている。
これらの課題に対処するために,複雑なシステムにおける表データに特化して設計された新しい因果解析言語モデルであるCALMを導入する。
CALMは、Mambaベースのアーキテクチャを利用して、ペアワイズ変数の関係から因果パターンを分類する。
局所因果スコア、条件独立テスト、関係属性を含む包括的な証拠を統合し、線形、非線形、条件因果メカニズムの幅広いスペクトルを捉える。
線形・混合・非線形モデルからの多種多様な合成データのコーパスと、因果関係を厳格に検証した実世界の10の生物学的データセットに基づいて、我々のモデルは堅牢性と一般化性を保証する。
実験的評価では、CALMはC型肝炎ウイルスの進行の因果因子を同定する現実世界のアプリケーションにおいて、両方のシミュレーション研究において、91%以上の精度で既存の手法を著しく上回っている。
この研究は、言語モデルのパターン認識能力を表データの複雑度に適応させることにより、正確で一般化可能な因果発見に向けた重要なステップを示す。
関連論文リスト
- Retrieving Classes of Causal Orders with Inconsistent Knowledge Bases [0.8192907805418583]
大規模言語モデル(LLM)は、テキストベースのメタデータから因果的知識を抽出するための有望な代替手段として登場した。
LLMは信頼できない傾向があり、幻覚を起こす傾向があり、その限界を考慮に入れた戦略を必要とする。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T16:37:51Z) - CAnDOIT: Causal Discovery with Observational and Interventional Data from Time-Series [4.008958683836471]
CAnDOITは、観測データと介入データの両方を用いて因果モデルを再構築する因果発見手法である。
因果解析における介入データの利用は、ロボット工学のような現実世界の応用には不可欠である。
CAnDOITのPython実装も開発され、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-10-03T13:57:08Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - A Neural Framework for Generalized Causal Sensitivity Analysis [78.71545648682705]
本稿では,因果感受性分析のためのニューラルネットワークフレームワークであるNeuralCSAを提案する。
我々は、NeuralCSAが関心の因果クエリに有効な境界を推測できることを理論的に保証する。
論文 参考訳(メタデータ) (2023-11-27T17:40:02Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - Discovering Mixtures of Structural Causal Models from Time Series Data [23.18511951330646]
基礎となる因果モデルを推測するために, MCD と呼ばれる一般的な変分推論に基づくフレームワークを提案する。
このアプローチでは、データ可能性のエビデンス-ローバウンドを最大化するエンドツーエンドのトレーニングプロセスを採用しています。
本研究では,本手法が因果発見タスクにおける最先端のベンチマークを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-10T05:13:10Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。