論文の概要: Can Large Language Models Infer Causation from Correlation?
- arxiv url: http://arxiv.org/abs/2306.05836v2
- Date: Sun, 31 Dec 2023 15:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:21:20.965327
- Title: Can Large Language Models Infer Causation from Correlation?
- Title(参考訳): 大規模言語モデルは相関から因果関係を推論できるか?
- Authors: Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan,
Rada Mihalcea, Mona Diab, Bernhard Sch\"olkopf
- Abstract要約: 大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 80.38419293391397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal inference is one of the hallmarks of human intelligence. While the
field of CausalNLP has attracted much interest in the recent years, existing
causal inference datasets in NLP primarily rely on discovering causality from
empirical knowledge (e.g., commonsense knowledge). In this work, we propose the
first benchmark dataset to test the pure causal inference skills of large
language models (LLMs). Specifically, we formulate a novel task Corr2Cause,
which takes a set of correlational statements and determines the causal
relationship between the variables. We curate a large-scale dataset of more
than 200K samples, on which we evaluate seventeen existing LLMs. Through our
experiments, we identify a key shortcoming of LLMs in terms of their causal
inference skills, and show that these models achieve almost close to random
performance on the task. This shortcoming is somewhat mitigated when we try to
re-purpose LLMs for this skill via finetuning, but we find that these models
still fail to generalize -- they can only perform causal inference in
in-distribution settings when variable names and textual expressions used in
the queries are similar to those in the training set, but fail in
out-of-distribution settings generated by perturbing these queries. Corr2Cause
is a challenging task for LLMs, and would be helpful in guiding future research
on improving LLMs' pure reasoning skills and generalizability. Our data is at
https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at
https://github.com/causalNLP/corr2cause.
- Abstract(参考訳): 因果推論は人間の知能の指標の1つである。
コーサルNLPの分野は近年多くの関心を集めているが、NLPの既存の因果推論データセットは主に経験的知識(例えばコモンセンス知識)から因果関係を発見することに依存している。
本研究では,大規模言語モデル(llm)の純粋因果推論スキルをテストする最初のベンチマークデータセットを提案する。
具体的には,新しいタスクCorr2Causeを定式化し,一連の相関文を取り,変数間の因果関係を決定する。
我々は,200万以上のサンプルからなる大規模データセットをキュレートし,既存のLLMを17個評価した。
実験により, LLMの因果推論能力において重要な欠点を同定し, これらのモデルがタスクのランダムな性能にほぼ近いことを示す。
この欠点は、微調整によってこのスキルのためにllmを再利用しようとすると多少軽減されますが、これらのモデルがまだ一般化できていないことに気付きます -- クエリで使用される変数名とテキスト式がトレーニングセットのものと似ている場合のみ、分散内設定で因果推論を行うことが可能ですが、これらのクエリを乱すことによって生成された分散外設定では失敗します。
Corr2CauseはLLMにとって難しい課題であり、LLMの純粋推論スキルと一般化可能性を改善するための将来の研究を導くのに役立つだろう。
私たちのデータはhttps://huggingface.co/datasets/causalnlp/corr2です。
私たちのコードはhttps://github.com/causalnlp/corr2です。
関連論文リスト
- Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。
最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文 参考訳(メタデータ) (2024-10-14T13:10:45Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Causal Agent based on Large Language Model [30.81702479532088]
大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。
因果問題と因果論の固有の複雑さは、それらを自然言語で正確に記述する上で困難を生じさせる。
我々は,LLMに因果的ツールを,因果的エージェント(Causal Agent)というエージェント・フレームワーク内に組み込んで,因果的問題に対処できるようにした。
論文 参考訳(メタデータ) (2024-08-13T12:22:26Z) - From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。
因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文 参考訳(メタデータ) (2024-07-29T01:45:05Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。