Fugu-MT 論文翻訳(概要): Can Large Language Models Infer Causation from Correlation?

論文の概要: Can Large Language Models Infer Causation from Correlation?

arxiv url: http://arxiv.org/abs/2306.05836v2
Date: Sun, 31 Dec 2023 15:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 02:21:20.965327
Title: Can Large Language Models Infer Causation from Correlation?
Title（参考訳）: 大規模言語モデルは相関から因果関係を推論できるか?
Authors: Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab, Bernhard Sch\"olkopf
Abstract要約: 大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
参考スコア（独自算出の注目度）: 80.38419293391397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 200K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
Abstract（参考訳）: 因果推論は人間の知能の指標の1つである。コーサルNLPの分野は近年多くの関心を集めているが、NLPの既存の因果推論データセットは主に経験的知識(例えばコモンセンス知識)から因果関係を発見することに依存している。本研究では,大規模言語モデル(llm)の純粋因果推論スキルをテストする最初のベンチマークデータセットを提案する。具体的には,新しいタスクCorr2Causeを定式化し,一連の相関文を取り,変数間の因果関係を決定する。我々は,200万以上のサンプルからなる大規模データセットをキュレートし,既存のLLMを17個評価した。実験により, LLMの因果推論能力において重要な欠点を同定し, これらのモデルがタスクのランダムな性能にほぼ近いことを示す。この欠点は、微調整によってこのスキルのためにllmを再利用しようとすると多少軽減されますが、これらのモデルがまだ一般化できていないことに気付きます -- クエリで使用される変数名とテキスト式がトレーニングセットのものと似ている場合のみ、分散内設定で因果推論を行うことが可能ですが、これらのクエリを乱すことによって生成された分散外設定では失敗します。 Corr2CauseはLLMにとって難しい課題であり、LLMの純粋推論スキルと一般化可能性を改善するための将来の研究を導くのに役立つだろう。私たちのデータはhttps://huggingface.co/datasets/causalnlp/corr2です。私たちのコードはhttps://github.com/causalnlp/corr2です。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
CausalGraph2LLM: Evaluating LLMs for Causal Queries [49.337170619608145]
CausalGraph2LLMは、さまざまな因果グラフ設定にまたがる700万以上のクエリからなるベンチマークである。この領域ではLSMは有望であるが, 使用するエンコーディングに非常に敏感であることがわかった。
論文参考訳（メタデータ） (2024-10-21T12:12:21Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文参考訳（メタデータ） (2024-08-21T17:59:05Z)
Causal Agent based on Large Language Model [30.81702479532088]
大規模言語モデル(LLM)は様々な領域で大きな成功を収めている。因果問題と因果論の固有の複雑さは、それらを自然言語で正確に記述する上で困難を生じさせる。我々は,LLMに因果的ツールを,因果的エージェント(Causal Agent)というエージェント・フレームワーク内に組み込んで,因果的問題に対処できるようにした。
論文参考訳（メタデータ） (2024-08-13T12:22:26Z)
From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文参考訳（メタデータ） (2024-07-29T01:45:05Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文参考訳（メタデータ） (2023-12-07T15:12:12Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文参考訳（メタデータ） (2023-05-15T15:44:51Z)
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。 LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文参考訳（メタデータ） (2023-04-28T19:00:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。