論文の概要: ChatGPT Prompting Cannot Estimate Predictive Uncertainty in
High-Resource Languages
- arxiv url: http://arxiv.org/abs/2311.06427v1
- Date: Fri, 10 Nov 2023 23:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:49:17.985395
- Title: ChatGPT Prompting Cannot Estimate Predictive Uncertainty in
High-Resource Languages
- Title(参考訳): オープンソース言語における予測不確かさを推定できないChatGPTプロンプト
- Authors: Martino Pelucchi and Matias Valdenegro-Toro
- Abstract要約: 本稿では,ChatGPTの高リソース言語における性能と,信頼性レベルを付与して回答の正確性を予測する能力に焦点を当てる。
ChatGPTの信頼性キャリブレーションの分析は以前も行われておらず、ChatGPTの信頼性について学ぶことが重要である。
- 参考スコア(独自算出の注目度): 8.1585306387285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT took the world by storm for its impressive abilities. Due to its
release without documentation, scientists immediately attempted to identify its
limits, mainly through its performance in natural language processing (NLP)
tasks. This paper aims to join the growing literature regarding ChatGPT's
abilities by focusing on its performance in high-resource languages and on its
capacity to predict its answers' accuracy by giving a confidence level. The
analysis of high-resource languages is of interest as studies have shown that
low-resource languages perform worse than English in NLP tasks, but no study so
far has analysed whether high-resource languages perform as well as English.
The analysis of ChatGPT's confidence calibration has not been carried out
before either and is critical to learn about ChatGPT's trustworthiness. In
order to study these two aspects, five high-resource languages and two NLP
tasks were chosen. ChatGPT was asked to perform both tasks in the five
languages and to give a numerical confidence value for each answer. The results
show that all the selected high-resource languages perform similarly and that
ChatGPT does not have a good confidence calibration, often being overconfident
and never giving low confidence values.
- Abstract(参考訳): ChatGPTは素晴らしい能力で世界を席巻した。
ドキュメントのないリリースのため、科学者はすぐに、自然言語処理(NLP)タスクのパフォーマンスを通じて、その限界を特定しようとした。
本稿では,ChatGPTの高リソース言語における性能と,信頼度を付与して回答の正確性を予測する能力に着目して,ChatGPTの能力に関する文献の増大に寄与することを目的とする。
高リソース言語の分析は、NLPタスクにおいて低リソース言語が英語よりも悪い性能を示すことを示す研究として興味深いが、高リソース言語が英語と同等に機能するかどうかをこれまでの研究では分析していない。
ChatGPTの信頼性キャリブレーションの分析は以前も行われておらず、ChatGPTの信頼性について学ぶことが重要である。
これら2つの側面を研究するため、5つの高リソース言語と2つのNLPタスクが選択された。
chatgptは5つの言語で両方のタスクを実行し、各回答に数値的な信頼度を与えるように求められた。
その結果、選択された高リソース言語はすべて同じように動作し、chatgptは信頼度校正が不十分であり、信頼度が過度に高く、信頼度が低くないことが判明した。
関連論文リスト
- ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Is ChatGPT a Good Personality Recognizer? A Preliminary Study [19.278538849802025]
本研究では,ChatGPTが与えられたテキストから人格を認識する能力について検討する。
我々は、ChatGPTが与えられたテキストから人格を認識する能力を調べるために、様々なプロンプト戦略を採用している。
論文 参考訳(メタデータ) (2023-07-08T11:02:02Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Towards Making the Most of ChatGPT for Machine Translation [75.576405098545]
ChatGPTは機械翻訳(MT)の優れた機能を示す
いくつかの先行研究により、ハイソース言語の商用システムと同等の結果が得られることが示されている。
論文 参考訳(メタデータ) (2023-03-24T03:35:21Z) - Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on
Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。
幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。
テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文 参考訳(メタデータ) (2023-03-14T03:13:02Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。