論文の概要: Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2402.11199v1
- Date: Sat, 17 Feb 2024 05:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:51:45.711118
- Title: Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs
- Title(参考訳): 知識グラフを用いたマルチホップ推論における思考連鎖の直接評価
- Authors: Minh-Vuong Nguyen, Linhao Luo, Fatemeh Shiri, Dinh Phung, Yuan-Fang
Li, Thuy-Trang Vu, Gholamreza Haffari
- Abstract要約: 大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 55.05394799820403
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) demonstrate strong reasoning abilities when
prompted to generate chain-of-thought (CoT) explanations alongside answers.
However, previous research on evaluating LLMs has solely focused on answer
accuracy, neglecting the correctness of the generated CoT. In this paper, we
delve deeper into the CoT reasoning capabilities of LLMs in multi-hop question
answering by utilizing knowledge graphs (KGs). We propose a novel
discriminative and generative CoT evaluation paradigm to assess LLMs' knowledge
of reasoning and the accuracy of the generated CoT. Through experiments
conducted on 5 different families of LLMs across 2 multi-hop question-answering
datasets, we find that LLMs possess sufficient knowledge to perform reasoning.
However, there exists a significant disparity between answer accuracy and
faithfulness of the CoT reasoning generated by LLMs, indicating that they often
arrive at correct answers through incorrect reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シント(CoT)の説明を生成するよう促されたときに強い推論能力を示す。
しかし,従来のLCMの評価では,生成したCoTの正しさを無視し,解答精度にのみ焦点が当てられていた。
本稿では,知識グラフ(KGs)を用いて,多項目質問応答におけるLLMのCoT推論能力を深く研究する。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
2つのマルチホップ問合せデータセットにまたがる5種類のLLMに対して行った実験により,LLMは推論を行うのに十分な知識を持っていることがわかった。
しかし、LLMが生成したCoT推論の正解精度と忠実度の間には大きな相違があり、誤った推論によって正しい解に到達することがしばしばあることを示している。
関連論文リスト
- MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition [41.7633932976937]
市販のHotpotQAデータセットを編集して,新たな知識に基づくLCM MHQA評価ベンチマークを導入する。
また,マルチホップ質問に対応するサブクエストと中間回答の形式で推論連鎖を注釈し,評価する。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Reasoning on Graphs: Faithful and Interpretable Large Language Model
Reasoning [104.92384929827776]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。
彼らは推論中に最新の知識と幻覚を欠いている。
知識グラフ(KG)は、推論のための信頼できる知識源を提供する。
論文 参考訳(メタデータ) (2023-10-02T10:14:43Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。