論文の概要: CLadder: Assessing Causal Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2312.04350v3
- Date: Wed, 17 Jan 2024 14:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:31:53.259861
- Title: CLadder: Assessing Causal Reasoning in Language Models
- Title(参考訳): CLadder: 言語モデルにおける因果推論の評価
- Authors: Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal,
Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner,
Mrinmaya Sachan, Bernhard Sch\"olkopf
- Abstract要約: 我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
- 参考スコア(独自算出の注目度): 82.8719238178569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform causal reasoning is widely considered a core feature
of intelligence. In this work, we investigate whether large language models
(LLMs) can coherently reason about causality. Much of the existing work in
natural language processing (NLP) focuses on evaluating commonsense causal
reasoning in LLMs, thus failing to assess whether a model can perform causal
inference in accordance with a set of well-defined formal rules. To address
this, we propose a new NLP task, causal inference in natural language, inspired
by the "causal inference engine" postulated by Judea Pearl et al. We compose a
large dataset, CLadder, with 10K samples: based on a collection of causal
graphs and queries (associational, interventional, and counterfactual), we
obtain symbolic questions and ground-truth answers, through an oracle causal
inference engine. These are then translated into natural language. We evaluate
multiple LLMs on our dataset, and we introduce and evaluate a bespoke
chain-of-thought prompting strategy, CausalCoT. We show that our task is highly
challenging for LLMs, and we conduct an in-depth analysis to gain deeper
insights into the causal reasoning abilities of LLMs. Our data is open-sourced
at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found
at https://github.com/causalNLP/cladder.
- Abstract(参考訳): 因果推論を行う能力は、インテリジェンスの中核的な特徴であると考えられている。
本研究では,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
自然言語処理(nlp)における既存の研究の多くは、llmにおける共通意味因果推論の評価に焦点を当てているため、モデルが明確に定義された形式規則のセットに従って因果推論を行うことができるかどうかの評価に失敗している。
そこで我々は,judea pearlらによって提唱された"causal inference engine"に触発された自然言語における因果推論という新しいnlpタスクを提案する。
因果グラフとクエリ(連想グラフ、介入グラフ、反事実グラフ)のコレクションに基づいて、10Kのサンプルを用いて大規模なデータセットCLadderを構成する。
これらは自然言語に翻訳される。
我々はデータセット上で複数のLCMを評価し,提案手法であるCausalCoTの導入と評価を行った。
LLMの因果推論能力についてより深い知見を得るため,本研究の課題は LLM にとって極めて困難であることを示す。
私たちのデータはhttps://huggingface.co/datasets/causalNLP/cladderでオープンソース化されています。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Counterfactual Causal Inference in Natural Language with Large Language Models [9.153187514369849]
本稿では,自然言語からの因果構造発見と因果推論手法を提案する。
まず LLM を用いてテキストデータからインスタンス化された因果変数を抽出し,因果グラフを構築する。
次に、推定されたグラフに対して反実数推論を行う。
論文 参考訳(メタデータ) (2024-10-08T21:53:07Z) - Causal Agent based on Large Language Model [30.81702479532088]
大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。
因果問題と因果論の固有の複雑さは、それらを自然言語で正確に記述する上で困難を生じさせる。
我々は,LLMに因果的ツールを,因果的エージェント(Causal Agent)というエージェント・フレームワーク内に組み込んで,因果的問題に対処できるようにした。
論文 参考訳(メタデータ) (2024-08-13T12:22:26Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。