Fugu-MT 論文翻訳(概要): CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models

論文の概要: CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2605.12918v1
Date: Wed, 13 May 2026 02:47:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.769776
Title: CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models
Title（参考訳）: CommonWhy: 大規模言語モデルにおけるエンティティベースの因果コモンセンス推論を評価するデータセット
Authors: Armin Toroghi, Faeze Moradi Kalarde, Scott Sanner,
Abstract要約: エンティティベースのコモンセンス推論を評価するために設計された質問のデータセットであるCommonWhyを紹介する。 CommonWhyは知識グラフ質問回答(KGQA)ベンチマークとしても機能し、クエリに答えるために必要な知識はすべてWikidataナレッジグラフで利用可能である。
参考スコア（独自算出の注目度）: 25.411175261827804
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To effectively interact with the real world, Large Language Models (LLMs) require entity-based commonsense reasoning, a challenging task that necessitates integrating factual knowledge about specific entities with commonsense inference. Existing datasets for evaluating LLM entity-based commonsense reasoning have largely focused on True/False or multiple-choice questions, leaving the explicit assessment of the model's ability in abductive reasoning about causes and effects and generating explanations largely unexamined. In this work, we introduce CommonWhy, a dataset of 15,000 why questions designed to evaluate entity-based commonsense reasoning about causal relationships in LLMs. CommonWhy also serves as a Knowledge Graph Question Answering (KGQA) benchmark, as all supporting knowledge required to answer its queries is available in the Wikidata knowledge graph. Unlike existing KGQA datasets, which primarily test fact retrieval, CommonWhy targets causal commonsense reasoning, establishing a new paradigm for KGQA evaluation. Experiments with state-of-the-art LLMs and LLM-based KGQA methods reveal their significant shortcomings, including frequent factual hallucinations and failures in causal reasoning.
Abstract（参考訳）: 現実世界と効果的に対話するためには、Large Language Models (LLM) はエンティティベースのコモンセンス推論を必要とする。 LLMのエンティティベースのコモンセンス推論を評価するための既存のデータセットは、真/偽または複数選択の質問に主に焦点を合わせており、原因や効果に関する帰納的推論におけるモデルの能力を明確に評価し、説明がほとんど検討されていない。本稿では,LLMにおける因果関係を推論するエンティティベースコモンセンスを評価するために設計された15,000の質問のデータセットであるCommonWhyを紹介する。 CommonWhyは知識グラフ質問回答(KGQA)ベンチマークとしても機能し、クエリに答えるために必要な知識はすべてWikidataナレッジグラフで利用可能である。事実検索を主にテストする既存のKGQAデータセットとは異なり、CommonWhyは因果コモンセンス推論をターゲットとし、KGQA評価のための新しいパラダイムを確立する。最先端のLLMとLLMをベースとしたKGQA手法による実験は、因果推論における頻繁な事実幻覚や失敗など、その重大な欠点を明らかにしている。

関連論文リスト

Prompting Large Language Models with Partial Knowledge for Answering Questions with Unseen Entities [43.88784275673178]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) におけるパラメトリック知識の補足と置換によって優れた性能を示す我々は,金の推論経路とその変種が,その答えを含む経路を除去することにより,部分的に関連する知識を構築するためにどのように使用されるかを示す。我々の覚醒に基づくアプローチは、組み込みベースの類似性に依存する従来の手法よりも優れた実用的効果を示す。
論文参考訳（メタデータ） (2025-08-02T09:54:46Z)
What's Missing in Vision-Language Models? Probing Their Struggles with Causal Order Reasoning [26.671128120554457]
因果推論は、複雑な高レベルの推論タスクを解決するのに基本である。既存のベンチマークには、しばしば推論の質問が混在している。 VQA-CausalとVCR-Causalを導入し,因果推論能力の分離と厳密な評価を行った。
論文参考訳（メタデータ） (2025-06-01T07:17:46Z)
CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge [19.34131843380852]
我々は、Long-Tailエンティティ(CoLoTa)上でのCommonsense推論のための新しいデータセットを提案する。 CoLoTaは質問応答とクレーム検証タスクから3,300のクエリで構成されている。我々は,LLMコモンセンス推論能力と,長い尾を持つ物体に対する幻覚に対する頑健性の両方を評価するための新しいベンチマークとしてCoLoTaを提案する。
論文参考訳（メタデータ） (2025-04-20T02:47:18Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
COLD: Causal reasOning in cLosed Daily activities [7.782872276680731]
我々はCOLD(Causal reasOning in cLosed Daily activities)フレームワークを提案する。出来事の因果性を理解するために、日々の現実的な活動に対する人間の理解に基づいて構築されている。提案手法は,膨大な因果クエリ作成を容易にする。
論文参考訳（メタデータ） (2024-11-29T06:37:13Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文参考訳（メタデータ） (2024-02-06T12:18:54Z)
CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文参考訳（メタデータ） (2023-12-07T15:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。