論文の概要: Causal Reasoning and Large Language Models: Opening a New Frontier for Causality
- arxiv url: http://arxiv.org/abs/2305.00050v3
- Date: Tue, 20 Aug 2024 17:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 21:01:16.644199
- Title: Causal Reasoning and Large Language Models: Opening a New Frontier for Causality
- Title(参考訳): 因果推論と大規模言語モデル - 因果性のための新たなフロンティアを開く
- Authors: Emre Kıcıman, Robert Ness, Amit Sharma, Chenhao Tan,
- Abstract要約: 大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
- 参考スコア(独自算出の注目度): 29.433401785920065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The causal capabilities of large language models (LLMs) are a matter of significant debate, with critical implications for the use of LLMs in societally impactful domains such as medicine, science, law, and policy. We conduct a "behavorial" study of LLMs to benchmark their capability in generating causal arguments. Across a wide range of tasks, we find that LLMs can generate text corresponding to correct causal arguments with high probability, surpassing the best-performing existing methods. Algorithms based on GPT-3.5 and 4 outperform existing algorithms on a pairwise causal discovery task (97%, 13 points gain), counterfactual reasoning task (92%, 20 points gain) and event causality (86% accuracy in determining necessary and sufficient causes in vignettes). We perform robustness checks across tasks and show that the capabilities cannot be explained by dataset memorization alone, especially since LLMs generalize to novel datasets that were created after the training cutoff date. That said, LLMs exhibit unpredictable failure modes, and we discuss the kinds of errors that may be improved and what are the fundamental limits of LLM-based answers. Overall, by operating on the text metadata, LLMs bring capabilities so far understood to be restricted to humans, such as using collected knowledge to generate causal graphs or identifying background causal context from natural language. As a result, LLMs may be used by human domain experts to save effort in setting up a causal analysis, one of the biggest impediments to the widespread adoption of causal methods. Given that LLMs ignore the actual data, our results also point to a fruitful research direction of developing algorithms that combine LLMs with existing causal techniques. Code and datasets are available at https://github.com/py-why/pywhy-llm.
- Abstract(参考訳): 大規模言語モデル(LLM)の因果的能力は、医学、科学、法学、政策といった社会的に影響力のある領域におけるLLMの使用に重要な意味を持つ重要な議論である。
我々は,LLMの因果論の生成能力を評価するために,LLMの「行動」研究を行う。
幅広いタスクにおいて、LLMは、高い確率で正しい因果引数に対応するテキストを生成でき、既存の手法よりも優れる。
GPT-3.5と4に基づくアルゴリズムは、ペアワイズ因果発見タスク(97%、13ポイントゲイン)、反ファクト因果推論タスク(92%、20ポイントゲイン)、イベント因果性(86%の正確性)において、既存のアルゴリズムよりも優れている。
我々はタスク間で堅牢性チェックを行い、特にLLMがトレーニングのカットオフ後に作成された新しいデータセットに一般化するため、データセットの記憶だけでは説明できないことを示す。
とは言え、LLMは予測不可能な障害モードを示し、改善される可能性のあるエラーの種類と、LLMベースの回答の基本的な限界について議論する。
全体として、LLMはテキストメタデータを操作することで、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に制限される機能を実現する。
結果として、LSMは、因果的手法の普及に最も大きな障害である因果的分析を構築するための努力を省くために、人間の領域の専門家によって使用される可能性がある。
LLMは実際のデータを無視しているため、既存の因果的手法とLLMを組み合わせたアルゴリズムを開発する上での有益な研究の方向性も示唆している。
コードとデータセットはhttps://github.com/py-why/pywhy-llm.comで公開されている。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Can We Utilize Pre-trained Language Models within Causal Discovery
Algorithms? [0.2303687191203919]
事前学習言語モデル(PLM)の因果推論は、テキストベースの記述にのみ依存する。
PLMから得られた事前知識を因果探索アルゴリズムと統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-19T03:31:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。