論文の概要: Evaluation of ChatGPT as a Question Answering System for Answering
Complex Questions
- arxiv url: http://arxiv.org/abs/2303.07992v1
- Date: Tue, 14 Mar 2023 15:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:24:37.794916
- Title: Evaluation of ChatGPT as a Question Answering System for Answering
Complex Questions
- Title(参考訳): 質問応答システムとしてのChatGPTの評価
- Authors: Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin
Qi
- Abstract要約: ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。
本稿では,質問応答システム(QAS)としてのChatGPTの性能を,独自の知識を用いて評価するフレームワークを提案する。
提案手法を用いて,8つの実世界のKBベースのCQAデータセットに対して,ChatGPTの性能評価を行う。
- 参考スコア(独自算出の注目度): 27.29278260747453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is a powerful large language model (LLM) that has made remarkable
progress in natural language understanding. Nevertheless, the performance and
limitations of the model still need to be extensively evaluated. As ChatGPT
covers resources such as Wikipedia and supports natural language question
answering, it has garnered attention as a potential replacement for traditional
knowledge based question answering (KBQA) models. Complex question answering is
a challenge task of KBQA, which comprehensively tests the ability of models in
semantic parsing and reasoning. To assess the performance of ChatGPT as a
question answering system (QAS) using its own knowledge, we present a framework
that evaluates its ability to answer complex questions. Our approach involves
categorizing the potential features of complex questions and describing each
test question with multiple labels to identify combinatorial reasoning.
Following the black-box testing specifications of CheckList proposed by Ribeiro
et.al, we develop an evaluation method to measure the functionality and
reliability of ChatGPT in reasoning for answering complex questions. We use the
proposed framework to evaluate the performance of ChatGPT in question answering
on 8 real-world KB-based CQA datasets, including 6 English and 2 multilingual
datasets, with a total of approximately 190,000 test cases. We compare the
evaluation results of ChatGPT, GPT-3.5, GPT-3, and FLAN-T5 to identify common
long-term problems in LLMs. The dataset and code are available at
https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-ChatGPT.
- Abstract(参考訳): ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。
それでも、モデルの性能と限界を広く評価する必要がある。
ChatGPTはWikipediaなどのリソースをカバーし、自然言語による質問応答をサポートするため、従来の知識に基づく質問応答(KBQA)モデルの代替として注目されている。
複雑な質問応答はKBQAの課題であり、意味解析と推論におけるモデルの能力を包括的にテストする。
質問応答システム(QAS)としてのChatGPTの性能を自身の知識で評価するために,複雑な質問に答える能力を評価する枠組みを提案する。
我々のアプローチでは、複雑な質問の潜在的な特徴を分類し、各テスト質問を複数のラベルで記述し、組合せ推論を識別する。
Ribeiroらによって提案されたCheckListのブラックボックステスト仕様に従い、複雑な質問に答えるためにChatGPTの機能と信頼性を評価する評価手法を開発した。
提案手法を用いて、約190,000のテストケースを含む6つの実世界のKBベースのCQAデータセットに対して、ChatGPTの性能を評価する。
LLMの長期的問題を特定するため,ChatGPT,GPT-3.5,GPT-3,FLAN-T5の評価結果を比較した。
データセットとコードはhttps://github.com/tan92hl/complex-Question-Answering-Evaluation-of-ChatGPTで公開されている。
関連論文リスト
- ChatGPT versus Traditional Question Answering for Knowledge Graphs:
Current Status and Future Directions Towards Knowledge Graph Chatbots [7.2676028986202]
知識グラフ(KG)のための会話型AIと質問応答システム(QAS)はどちらも新興研究分野である。
QASは、自然言語質問を理解して翻訳することで、KGから最新の情報を検索し、データベースエンジンがサポートする形式的なクエリに変換する。
本フレームワークでは,現在最先端のQASであるKGQANに対して,ChatGPTとGalacticaの2つの代表的な対話モデルを比較した。
論文 参考訳(メタデータ) (2023-02-08T13:03:27Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [53.921556555662214]
我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。
また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。
ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.04014979270966]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Would You Ask it that Way? Measuring and Improving Question Naturalness
for Knowledge Graph Question Answering [20.779777536841493]
知識グラフ質問応答(KGQA)は、ユーザから正式なクエリ言語専門知識を必要とせず、構造化されたデータを活用することで情報アクセスを容易にする。
我々は,既存のKGQAデータセットから質問を抽出し,自然性の5つの側面について評価することにより,IQN-KGQAテストコレクションを作成する。
より現実的なNL質問の定式化を行うと,いくつかのKGQAシステムはさらに悪化することがわかった。
論文 参考訳(メタデータ) (2022-05-25T13:32:27Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - KQA Pro: A Dataset with Explicit Compositional Programs for Complex
Question Answering over Knowledge Base [67.87878113432723]
複雑KBQAのためのデータセットであるKQA Proを紹介する。
各質問に対して、対応するKoPLプログラムとSPARQLクエリを提供するので、KQA ProはKBQAとセマンティック解析の両方に役立ちます。
論文 参考訳(メタデータ) (2020-07-08T03:28:04Z) - Fluent Response Generation for Conversational Question Answering [15.826109118064716]
本稿では,SEQ2SEQ NLGアプローチで応答をシチュレートする手法を提案する。
我々は、エンドツーエンドシステムのトレーニングデータを生成するためにデータ拡張を使用します。
論文 参考訳(メタデータ) (2020-05-21T04:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。