論文の概要: ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15487v1
- Date: Fri, 21 Feb 2025 14:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:06.826515
- Title: ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models
- Title(参考訳): ExpliCa: 大規模言語モデルにおける明示的因果推論の評価
- Authors: Martina Miliani, Serenna Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia Passaro, Irene Sucameli, Alessandro Lenci,
- Abstract要約: 明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
- 参考スコア(独自算出の注目度): 75.05436691700572
- License:
- Abstract: Large Language Models (LLMs) are increasingly used in tasks requiring interpretive and inferential accuracy. In this paper, we introduce ExpliCa, a new dataset for evaluating LLMs in explicit causal reasoning. ExpliCa uniquely integrates both causal and temporal relations presented in different linguistic orders and explicitly expressed by linguistic connectives. The dataset is enriched with crowdsourced human acceptability ratings. We tested LLMs on ExpliCa through prompting and perplexity-based metrics. We assessed seven commercial and open-source LLMs, revealing that even top models struggle to reach 0.80 accuracy. Interestingly, models tend to confound temporal relations with causal ones, and their performance is also strongly influenced by the linguistic order of the events. Finally, perplexity-based scores and prompting performance are differently affected by model size.
- Abstract(参考訳): 大規模言語モデル(LLM)は、解釈的および推論的正確性を必要とするタスクでますます使われている。
本稿では,LLMを明確な因果推論で評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCaは、異なる言語順で表される因果関係と時間関係を統合し、言語接続によって明示的に表される。
データセットには、クラウドソースによる人間のアクセシビリティ評価が組み込まれている。
ExpliCa上でのLSMのテストは、プロンプトとパープレキシティベースのメトリクスを使って行いました。
我々は7つの商用およびオープンソースのLCMを評価し、トップモデルでさえ0.80の精度に達するのに苦労していることを明らかにした。
興味深いことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、その性能は出来事の言語的順序にも強く影響される。
最後に、パープレキシティベースのスコアとプロンプトパフォーマンスは、モデルサイズによって異なる影響を受ける。
関連論文リスト
- Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。
概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T20:20:24Z) - Probing Causality Manipulation of Large Language Models [12.46951388060595]
大規模言語モデル(LLM)は、因果関係の問題を含む自然言語処理に様々な能力を示している。
本稿では、モデルに異なるショートカットを提供し、行動を観察し、因果操作を階層的に探索する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-26T16:00:41Z) - From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。
因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文 参考訳(メタデータ) (2024-07-29T01:45:05Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。