論文の概要: CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.06349v1
- Date: Tue, 9 Apr 2024 14:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:21:03.575981
- Title: CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models
- Title(参考訳): CausalBench: 大規模言語モデルの因果学習能力に関する総合ベンチマーク
- Authors: Yu Zhou, Xingyu Wu, Beicheng Huang, Jibin Wu, Liang Feng, Kay Chen Tan,
- Abstract要約: 因果性は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにする。
大規模言語モデル(LLM)は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、因果関係がそれらの効果に直接影響を与えることを理解することができる。
本稿では,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。
- 参考スコア(独自算出の注目度): 27.362012903540492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causality reveals fundamental principles behind data distributions in real-world scenarios, and the capability of large language models (LLMs) to understand causality directly impacts their efficacy across explaining outputs, adapting to new evidence, and generating counterfactuals. With the proliferation of LLMs, the evaluation of this capacity is increasingly garnering attention. However, the absence of a comprehensive benchmark has rendered existing evaluation studies being straightforward, undiversified, and homogeneous. To address these challenges, this paper proposes a comprehensive benchmark, namely CausalBench, to evaluate the causality understanding capabilities of LLMs. Originating from the causal research community, CausalBench encompasses three causal learning-related tasks, which facilitate a convenient comparison of LLMs' performance with classic causal learning algorithms. Meanwhile, causal networks of varying scales and densities are integrated in CausalBench, to explore the upper limits of LLMs' capabilities across task scenarios of varying difficulty. Notably, background knowledge and structured data are also incorporated into CausalBench to thoroughly unlock the underlying potential of LLMs for long-text comprehension and prior information utilization. Based on CausalBench, this paper evaluates nineteen leading LLMs and unveils insightful conclusions in diverse aspects. Firstly, we present the strengths and weaknesses of LLMs and quantitatively explore the upper limits of their capabilities across various scenarios. Meanwhile, we further discern the adaptability and abilities of LLMs to specific structural networks and complex chain of thought structures. Moreover, this paper quantitatively presents the differences across diverse information sources and uncovers the gap between LLMs' capabilities in causal understanding within textual contexts and numerical domains.
- Abstract(参考訳): 因果性(Causality)は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにし、因果性を理解する大きな言語モデル(LLM)の能力は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、それらの有効性に直接影響する。
LLMの増殖に伴い、この能力の評価はますます注目を集めている。
しかし、包括的なベンチマークがないため、既存の評価研究は単純で、多様性がなく、均一である。
これらの課題に対処するために,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。
因果研究コミュニティから派生したCausalBenchは、3つの因果学習関連タスクを含んでいる。
一方、様々なスケールと密度の因果ネットワークをCausalBenchに統合し、様々な難易度のタスクシナリオにまたがるLLMの能力の上限を探索する。
特に、背景知識と構造化データもCausalBenchに組み込まれ、LLMの基盤となる可能性を長期的理解と事前情報利用のために完全に解き放つ。
CausalBenchをベースとして,19のLLMの評価を行い,多様な側面における洞察に富んだ結論を明らかにした。
まず, LLMの長所と短所を示し, 様々なシナリオにおいて, それらの能力の上限を定量的に検討する。
一方、LLMの特定の構造ネットワークや複雑な思考構造への適応性や能力についてさらに明らかにする。
さらに,多種多様な情報ソース間の差異を定量的に検討し,テキストコンテキストと数値領域における因果理解におけるLLMの能力のギャップを明らかにする。
関連論文リスト
- Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey [46.4375135354838]
因果推論は、自然言語処理(NLP)モデルの予測精度、公正性、堅牢性、説明可能性を高める可能性を示している。
生成型Large Language Models(LLM)の出現は、様々なNLPドメインに大きな影響を与えている。
論文 参考訳(メタデータ) (2024-03-14T17:47:20Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - From Query Tools to Causal Architects: Harnessing Large Language Models
for Advanced Causal Discovery from Data [19.264745484010106]
大規模言語モデル (LLM) は、多くの社会的影響のある領域における概念間の因果解析の優れた能力を示す。
様々な因果発見および推論タスクにおけるLLM性能に関する最近の研究は、因果関係の古典的な3段階の枠組みに新たなはしごを生じさせている。
本稿では,知識に基づくLLM因果解析とデータ駆動因果構造学習を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-06-29T12:48:00Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。