論文の概要: CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge
- arxiv url: http://arxiv.org/abs/2504.14462v1
- Date: Sun, 20 Apr 2025 02:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:27:41.808448
- Title: CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge
- Title(参考訳): CoLoTa: ロングテール知識に関するエンティティベースのCommonsense推論のためのデータセット
- Authors: Armin Toroghi, Willis Guo, Scott Sanner,
- Abstract要約: 我々は、Long-Tailエンティティ(CoLoTa)上でのCommonsense推論のための新しいデータセットを提案する。
CoLoTaは質問応答とクレーム検証タスクから3,300のクエリで構成されている。
我々は,LLMコモンセンス推論能力と,長い尾を持つ物体に対する幻覚に対する頑健性の両方を評価するための新しいベンチマークとしてCoLoTaを提案する。
- 参考スコア(独自算出の注目度): 19.34131843380852
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rise of Large Language Models (LLMs) has redefined the AI landscape, particularly due to their ability to encode factual and commonsense knowledge, and their outstanding performance in tasks requiring reasoning. Despite these advances, hallucinations and reasoning errors remain a significant barrier to their deployment in high-stakes settings. In this work, we observe that even the most prominent LLMs, such as OpenAI-o1, suffer from high rates of reasoning errors and hallucinations on tasks requiring commonsense reasoning over obscure, long-tail entities. To investigate this limitation, we present a new dataset for Commonsense reasoning over Long-Tail entities (CoLoTa), that consists of 3,300 queries from question answering and claim verification tasks and covers a diverse range of commonsense reasoning skills. We remark that CoLoTa can also serve as a Knowledge Graph Question Answering (KGQA) dataset since the support of knowledge required to answer its queries is present in the Wikidata knowledge graph. However, as opposed to existing KGQA benchmarks that merely focus on factoid questions, our CoLoTa queries also require commonsense reasoning. Our experiments with strong LLM-based KGQA methodologies indicate their severe inability to answer queries involving commonsense reasoning. Hence, we propose CoLoTa as a novel benchmark for assessing both (i) LLM commonsense reasoning capabilities and their robustness to hallucinations on long-tail entities and (ii) the commonsense reasoning capabilities of KGQA methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、特に事実と常識の知識をエンコードする能力と、推論を必要とするタスクにおける卓越したパフォーマンスのために、AIの展望を再定義した。
これらの進歩にもかかわらず、幻覚や推論の誤りは、ハイテイクな環境での展開にとって重要な障壁である。
本研究は,OpenAI-o1 のような最も著名な LLM でさえ,不明瞭で長い尾のエンティティに対して常識的推論を必要とするタスクにおいて,高い推論誤りや幻覚の率に悩まされていることを観察する。
この制限を調査するために,質問応答とクレーム検証タスクから3,300のクエリで構成され,多様なコモンセンス推論スキルをカバーする,コモンセンス推論のための新しいデータセットを提案する。
Wikidataナレッジグラフには,クエリに応答するために必要な知識のサポートが存在するため,CoLoTaは知識グラフ質問回答(KGQA)データセットとしても機能する。
しかし、既存のKGQAベンチマークとは対照的に、私たちのCoLoTaクエリはコモンセンス推論も必要です。
強いLLMに基づくKGQA手法を用いて行った実験は,コモンセンス推論を含む問合せに答えることができないことを示す。
したがって,両評価のための新しいベンチマークとしてCoLoTaを提案する。
一)LLM常識推論能力及び長尾実体の幻覚に対する頑健性
(II) KGQA法の常識推論能力について検討した。
関連論文リスト
- Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - CR-LT-KGQA: A Knowledge Graph Question Answering Dataset Requiring
Commonsense Reasoning and Long-Tail Knowledge [21.73770363188049]
質問応答とクレーム検証という2つのサブタスクを備えた新しいCommonsense Reasoning(CR)とLong-Tail(LT)KGQAデータセットを作成します。
既存のKGQA法は、コモンセンス推論サポートの欠如により適用できないが、CR-LT KGQA上のLCMのベースライン評価は、幻覚の頻度が高いことを示している。
論文 参考訳(メタデータ) (2024-03-03T04:47:01Z) - Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering [18.48602809114524]
知識グラフ質問回答法(KGQA)は,知識グラフ(KGs)に格納された関係情報を用いて自然言語の質問に答えようとする方法である。
近年のLarge Language Models(LLM)の進歩と、その顕著な推論能力により、KGQAにそれらを活用する傾向が高まっている。
検証可能な推論手順を可能にする共通知識KGQA手法であるRight for Right Reasons (R3)を提案する。
論文 参考訳(メタデータ) (2024-03-03T04:22:13Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Reasoning on Graphs: Faithful and Interpretable Large Language Model
Reasoning [104.92384929827776]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。
彼らは推論中に最新の知識と幻覚を欠いている。
知識グラフ(KG)は、推論のための信頼できる知識源を提供する。
論文 参考訳(メタデータ) (2023-10-02T10:14:43Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。