論文の概要: CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
- arxiv url: http://arxiv.org/abs/2605.26029v2
- Date: Thu, 28 May 2026 01:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.646814
- Title: CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
- Title(参考訳): CausaLab:AI科学者を対象としたインタラクティブな因果発見のためのスケーラブルな環境
- Authors: Junlin Yang, Dylan Zhang, Xiangchen Song, Qirun Dai, Xiao Liu, Yuen Chen, Aniket Vashishtha, Jing Shi, Chenhao Tan, Hao Peng,
- Abstract要約: LLMエージェントによる対話的因果発見を評価するスケーラブルな環境であるCausaLabを紹介する。
以前の評価とは異なり、CausaLabは、エージェントが因果的証拠を用いて問題を解くことができるかどうか、そしてその答えが忠実に回復された因果的メカニズムに根ざされているかどうかを評価している。
- 参考スコア(独自算出の注目度): 28.253879252786632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge $F_1$. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.
- Abstract(参考訳): LLMエージェントによる対話的因果発見を評価するスケーラブルな環境であるCausaLabを紹介する。
以前の評価とは異なり、CausaLabは、エージェントが因果的証拠を用いて問題を解くことができるかどうか、そしてその答えが忠実に回復された因果的メカニズムに根ざされているかどうかを評価している。
各エピソードは、前回の測定記録を受け取り、マニピュレータ結晶に介入し、同じ機構で制御される保留型原子炉結晶の共鳴周波数を予測する。
隠れたデータ生成プロセスはランダムにサンプリングされた構造因果モデル(SCM)であるため、成功には事前の知識を思い出すのではなく、因果グラフと構造方程式の両方を復元する必要がある。
純粋に観測可能な6ノード設定では、GPT-5.2ハイは92%のタスク精度を持つが、全エッジの$F_1$はわずか0.471である。
混合観察・干渉戦略は構造的忠実性を改善する一方、強いエージェントでさえ純粋な介入は困難である。
我々は、早期停止を大きな弱点として認識し、一貫性検証がそれを緩和することを示す。
CausaLabは因果的理解から予測的成功を分離し、実験的な因果的推論として現在のLLMエージェントの限界を公開する。
関連論文リスト
- AI scientists produce results without reasoning scientifically [3.100302590436282]
大規模言語モデル(LLM)ベースのシステムは、科学的研究を自律的に行うためにますます多くデプロイされている。
そこで本研究では,8つの領域にまたがるLSMに基づく科学的エージェントの評価を行い,その実行と仮説に基づく調査を行った。
論文 参考訳(メタデータ) (2026-04-20T20:23:42Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Context-Aware Reasoning On Parametric Knowledge for Inferring Causal Variables [49.31233968546582]
本稿では,部分因果グラフの完成を目的とした新しいベンチマークを提案する。
原因と効果の間のバックドア変数を仮説化するLLMの強い能力を示す。
固定された関連性の単純な記憶とは異なり、我々のタスクはグラフ全体のコンテキストに応じてLCMを推論する必要がある。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。