論文の概要: A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity
- arxiv url: http://arxiv.org/abs/2302.04023v4
- Date: Tue, 28 Nov 2023 09:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 17:07:15.950810
- Title: A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity
- Title(参考訳): 推論・幻覚・対話性におけるchatgptのマルチタスク・マルチリンガル・マルチモーダル評価
- Authors: Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su,
Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do,
Yan Xu, Pascale Fung
- Abstract要約: 8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
- 参考スコア(独自算出の注目度): 79.12003701981092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a framework for quantitatively evaluating interactive
LLMs such as ChatGPT using publicly available data sets. We carry out an
extensive technical evaluation of ChatGPT using 23 data sets covering 8
different common NLP application tasks. We evaluate the multitask, multilingual
and multi-modal aspects of ChatGPT based on these data sets and a newly
designed multimodal dataset. We find that ChatGPT outperforms LLMs with
zero-shot learning on most tasks and even outperforms fine-tuned models on some
tasks. We find that it is better at understanding non-Latin script languages
than generating them. It is able to generate multimodal content from textual
prompts, via an intermediate code generation step. Moreover, we find that
ChatGPT is 63.41% accurate on average in 10 different reasoning categories
under logical reasoning, non-textual reasoning, and commonsense reasoning,
hence making it an unreliable reasoner. It is, for example, better at deductive
than inductive reasoning. ChatGPT suffers from hallucination problems like
other LLMs and it generates more extrinsic hallucinations from its parametric
memory as it does not have access to an external knowledge base. Finally, the
interactive feature of ChatGPT enables human collaboration with the underlying
LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++
on machine translation, in a multi-turn "prompt engineering" fashion. We also
release codebase for evaluation set extraction.
- Abstract(参考訳): 本稿では,ChatGPT などの対話型 LLM を公開データセットを用いて定量的に評価するためのフレームワークを提案する。
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を評価する。
また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。
生成するよりも、非ラテン語のスクリプト言語を理解する方が優れていることが分かりました。
中間のコード生成ステップを通じて、テキストプロンプトからマルチモーダルコンテンツを生成することができる。
さらに、ChatGPTは論理的推論、非テクスト的推論、コモンセンス推論の10種類の推論カテゴリで平均63.41%正確であることから、信頼できない推論となる。
例えば、帰納的推論よりも推論的に優れている。
ChatGPTは、他のLLMのような幻覚障害に悩まされており、外部知識ベースにアクセスできないため、そのパラメトリックメモリから外因性幻覚を生成する。
最後に、ChatGPTの対話的機能により、基礎となるLLMとの人間によるコラボレーションにより、要約における8%のROUGE-1、機械翻訳における2%のChrF++をマルチターンの"プロンプトエンジニアリング"方式で改善することができる。
評価セット抽出のためのコードベースもリリースしています。
関連論文リスト
- How Good is ChatGPT at Face Biometrics? A First Look into Recognition,
Soft Biometrics, and Explainability [17.85111188884935]
ChatGPTは、誰でも大きな言語モデルと単純な会話で対話できる。
本稿では,ChatGPTによる顔認証,ソフトバイオメトリックス推定,結果の説明可能性などのタスクの実行能力について分析する。
論文 参考訳(メタデータ) (2024-01-24T18:10:39Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large
Language Models [125.7209927536255]
チャットベースのLLMのためのツール拡張チェーン推論フレームワークChatCoTを提案する。
ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。
提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。
論文 参考訳(メタデータ) (2023-05-23T17:54:33Z) - Automatic Code Summarization via ChatGPT: How Far Are We? [10.692654700225411]
CSN-Pythonと呼ばれる広く使われているPythonデータセット上でChatGPTを評価する。
BLEUとROUGE-Lでは、ChatGPTのコード要約性能は3つのSOTAモデルと比べて著しく劣っている。
この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。
論文 参考訳(メタデータ) (2023-05-22T09:43:40Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる
CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-06T17:47:29Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。