論文の概要: Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT
family LLMs' Question Answering Performance
- arxiv url: http://arxiv.org/abs/2303.07992v2
- Date: Fri, 4 Aug 2023 10:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:11:17.291300
- Title: Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT
family LLMs' Question Answering Performance
- Title(参考訳): ChatGPTは従来のKBQAモデルを置き換えることができるか?
gptファミリーllmsの質問応答性能に関する詳細な分析
- Authors: Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin
Qi
- Abstract要約: ChatGPTは、ウィキペディアのような知識資源をカバーする強力な大規模言語モデル(LLM)であり、自然言語による質問応答をサポートする。
8つの実世界のKBベースの複合質問応答データセット上でChatGPTとそのLLMのファミリーを評価した。
- 参考スコア(独自算出の注目度): 27.29278260747453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is a powerful large language model (LLM) that covers knowledge
resources such as Wikipedia and supports natural language question answering
using its own knowledge. Therefore, there is growing interest in exploring
whether ChatGPT can replace traditional knowledge-based question answering
(KBQA) models. Although there have been some works analyzing the question
answering performance of ChatGPT, there is still a lack of large-scale,
comprehensive testing of various types of complex questions to analyze the
limitations of the model. In this paper, we present a framework that follows
the black-box testing specifications of CheckList proposed by Ribeiro et. al.
We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex
question answering datasets, which include six English datasets and two
multilingual datasets. The total number of test cases is approximately 190,000.
In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5
to identify commonalities between the GPT family and other LLMs. The dataset
and code are available at
https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git
- Abstract(参考訳): ChatGPTは、ウィキペディアのような知識資源をカバーする強力な大規模言語モデル(LLM)であり、独自の知識を使用して自然言語質問応答をサポートする。
したがって、ChatGPTが従来の知識に基づく質問応答(KBQA)モデルを置き換えることができるかどうかを探求する関心が高まっている。
ChatGPTの性能を解析する研究はいくつかあるが、モデルの限界を分析するための様々な種類の複雑な質問の大規模かつ包括的なテストはいまだに存在しない。
本稿では,ribeiroらによって提案されたチェックリストのブラックボックステスト仕様に従うフレームワークを提案する。
アル
6つの英語データセットと2つの多言語データセットを含む8つの実世界のKBベースの複合質問応答データセット上でChatGPTとそのLLM群を評価する。
テストケースの総数は約190,000である。
LLMのGPTファミリーに加えて、よく知られたFLAN-T5も評価し、GPTファミリーと他のLPMの共通点を同定した。
データセットとコードはhttps://github.com/tan92hl/complex-question-answering-evaluation-of-gpt-family.gitで入手できる。
関連論文リスト
- FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - In-Context Learning for Knowledge Base Question Answering for Unmanned
Systems based on Large Language Models [43.642717344626355]
我々は,無人システムにおける知識グラフ推論を用いた質問回答コンペティション(CCKS2023)に注目した。
多くのQAタスクにおいてChatGPTやGPT-3のような大規模言語モデル(LLM)が最近成功したことに触発されて、ChatGPTベースのCypher Query Language(CQL)生成フレームワークを提案する。
当社のChatGPTベースのCQL生成フレームワークは、Unmanned Systemsコンペティションのための知識グラフ推論によるCCKS 2023質問回答において、第2位を獲得しました。
論文 参考訳(メタデータ) (2023-11-06T08:52:11Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。