Fugu-MT 論文翻訳(概要): InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

論文の概要: InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

arxiv url: http://arxiv.org/abs/2603.15542v1
Date: Mon, 16 Mar 2026 17:06:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.620401
Title: InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems
Title（参考訳）: InterveneBench:実社会システムにおけるインターベンション推論と因果学習設計のためのLLMのベンチマーク
Authors: Shaojie Shi, Zhengyu Shi, Lingran Zheng, Xinyu Su, Anna Xie, Bohao Lv, Rui Xu, Zijian Chen, Zhichao Chen, Guolei Liu, Naifu Zhang, Mingjian Dong, Zhuo Quan, Bohao Chen, Teqi Hao, Yuan Qi, Yinghui Xu, Libo Wu,
Abstract要約: 社会科学における因果推論は、現実世界の政策介入に根ざしたエンドツーエンドの介入中心の研究設計推論に依存している。我々は、現実的な社会的環境におけるそのような推論を評価するために設計されたベンチマークであるInterveneBenchを紹介する。
参考スコア（独自算出の注目度）: 20.329394714911427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Causal inference in social science relies on end-to-end, intervention-centered research-design reasoning grounded in real-world policy interventions, but current benchmarks fail to evaluate this capability of large language models (LLMs). We present InterveneBench, a benchmark designed to assess such reasoning in realistic social settings. Each instance in InterveneBench is derived from an empirical social science study and requires models to reason about policy interventions and identification assumptions without access to predefined causal graphs or structural equations. InterveneBench comprises 744 peer-reviewed studies across diverse policy domains. Experimental results show that state-of-the-art LLMs struggle under this setting. To address this limitation, we further propose a multi-agent framework, STRIDES. It achieves significant performance improvements over state-of-the-art reasoning models. Our code and data are available at https://github.com/Sii-yuning/STRIDES.
Abstract（参考訳）: 社会科学における因果推論は、現実の政策介入に根ざしたエンドツーエンドの介入中心の研究設計推論に依存しているが、現在のベンチマークでは、この大きな言語モデル(LLM)の能力を評価できない。我々は、現実的な社会的環境におけるそのような推論を評価するために設計されたベンチマークであるInterveneBenchを紹介する。 InterveneBenchの各インスタンスは、実証的な社会科学研究から派生したもので、事前に定義された因果グラフや構造方程式にアクセスすることなく、政策介入と識別仮定を推論するモデルを必要とする。 InterveneBenchは、さまざまなポリシードメインにわたる744のピアレビュー研究で構成されている。実験により, 現状のLLMは, この環境下では苦戦していることが明らかとなった。この制限に対処するため、我々はさらにマルチエージェントフレームワークSTRIDESを提案する。最先端の推論モデルよりも大幅なパフォーマンス向上を実現している。私たちのコードとデータはhttps://github.com/Sii-yuning/STRIDES.comで公開されています。

関連論文リスト

Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships [21.03106821967686]
因果推論は、真の因果関係を理解するための大言語モデルの基本である。既存のベンチマークは、合成データへの依存やドメインカバレッジの狭さといった、重大な制限に悩まされている。本稿では,上位階層の経済誌と財務誌から抽出したカジュアルに同定された関係から構築された新しいベンチマークを紹介する。
論文参考訳（メタデータ） (2025-10-08T17:00:49Z)
PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。解は公式の有向非巡回グラフ(DAG)として表される。その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文参考訳（メタデータ） (2025-10-03T17:09:03Z)
Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文参考訳（メタデータ） (2025-09-02T14:16:02Z)
From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。 AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。 AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文参考訳（メタデータ） (2025-06-09T23:56:41Z)
Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
Mitigating Distribution Shift in Model-based Offline RL via Shifts-aware Reward Learning [36.01269673940484]
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。我々の理論的および実証的研究は、これらの要因がどのように価値推定と政策最適化を歪めているかを明らかにする。我々は、バニラ報酬を改良し、価値学習を洗練させ、政策訓練を促進する統一確率的推論フレームワークを通じて、新しいシフトアウェア報酬を導出する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。 CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文参考訳（メタデータ） (2022-10-31T13:04:07Z)
Impact Remediation: Optimal Interventions to Reduce Inequality [10.806517393212491]
我々は、既存の現実世界の格差に対処するための新しいアルゴリズムフレームワークを開発する。本フレームワークの目的は、現実世界の格差を計測し、最適な介入ポリシーを発見することである。最適な政策学習に関するほとんどの研究とは対照的に、格差低減自体を目的として検討する。
論文参考訳（メタデータ） (2021-07-01T16:35:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。