論文の概要: CLadder: Assessing Causal Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2312.04350v3
- Date: Wed, 17 Jan 2024 14:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:31:53.259861
- Title: CLadder: Assessing Causal Reasoning in Language Models
- Title(参考訳): CLadder: 言語モデルにおける因果推論の評価
- Authors: Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal,
Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner,
Mrinmaya Sachan, Bernhard Sch\"olkopf
- Abstract要約: 我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
- 参考スコア(独自算出の注目度): 82.8719238178569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to perform causal reasoning is widely considered a core feature
of intelligence. In this work, we investigate whether large language models
(LLMs) can coherently reason about causality. Much of the existing work in
natural language processing (NLP) focuses on evaluating commonsense causal
reasoning in LLMs, thus failing to assess whether a model can perform causal
inference in accordance with a set of well-defined formal rules. To address
this, we propose a new NLP task, causal inference in natural language, inspired
by the "causal inference engine" postulated by Judea Pearl et al. We compose a
large dataset, CLadder, with 10K samples: based on a collection of causal
graphs and queries (associational, interventional, and counterfactual), we
obtain symbolic questions and ground-truth answers, through an oracle causal
inference engine. These are then translated into natural language. We evaluate
multiple LLMs on our dataset, and we introduce and evaluate a bespoke
chain-of-thought prompting strategy, CausalCoT. We show that our task is highly
challenging for LLMs, and we conduct an in-depth analysis to gain deeper
insights into the causal reasoning abilities of LLMs. Our data is open-sourced
at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found
at https://github.com/causalNLP/cladder.
- Abstract(参考訳): 因果推論を行う能力は、インテリジェンスの中核的な特徴であると考えられている。
本研究では,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
自然言語処理(nlp)における既存の研究の多くは、llmにおける共通意味因果推論の評価に焦点を当てているため、モデルが明確に定義された形式規則のセットに従って因果推論を行うことができるかどうかの評価に失敗している。
そこで我々は,judea pearlらによって提唱された"causal inference engine"に触発された自然言語における因果推論という新しいnlpタスクを提案する。
因果グラフとクエリ(連想グラフ、介入グラフ、反事実グラフ)のコレクションに基づいて、10Kのサンプルを用いて大規模なデータセットCLadderを構成する。
これらは自然言語に翻訳される。
我々はデータセット上で複数のLCMを評価し,提案手法であるCausalCoTの導入と評価を行った。
LLMの因果推論能力についてより深い知見を得るため,本研究の課題は LLM にとって極めて困難であることを示す。
私たちのデータはhttps://huggingface.co/datasets/causalNLP/cladderでオープンソース化されています。
関連論文リスト
- Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [12.898859965556698]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,「do-operators」を用いた新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Large Language Model for Causal Decision Making [7.565772011682912]
大きな言語モデル(LLM)は、言語理解と一般的なトピックの推論で成功していることを示している。
LLMをLLM4Causalに微調整することで、因果タスクを識別し、対応する関数を実行し、ユーザのクエリと提供されたデータセットに基づいてその数値結果を解釈できる可能性を探る。
論文 参考訳(メタデータ) (2023-12-28T16:59:06Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Reliable Natural Language Understanding with Large Language Models and
Answer Set Programming [0.0]
大規模言語モデル(LLM)は、様々なNLPタスクを解くためにテキストのパターンを利用することができるが、推論を必要とする問題では不足している。
LLMとAnswer Set Programming(ASP)を組み合わせたフレームワークSTARを提案する。
目標指向のASPは、この知識を確実に推論するために使用される。
論文 参考訳(メタデータ) (2023-02-07T22:37:21Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。