論文の概要: GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP
- arxiv url: http://arxiv.org/abs/2305.14976v1
- Date: Wed, 24 May 2023 10:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:13:55.144254
- Title: GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP
- Title(参考訳): GPTAraEval:アラビア語NLPにおけるChatGPTの総合評価
- Authors: Md Tawkat Islam Khondaker, Abdul Waheed, El Moatez Billah Nagoudi,
Muhammad Abdul-Mageed
- Abstract要約: アラビア語 NLP タスクの幅広い範囲において,このモデルを大規模に評価する。
すなわち、ChatGPTを32種類の自然言語理解および生成タスクで60以上のデータセット上で評価する。
我々の結果は、英語のベンチマークで成功したにもかかわらず、ChatGPTで訓練されたインコンテキスト(フェーショット)は、アラビア語で微調整されたより小さな専用モデルよりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 8.227864212055035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of ChatGPT has brought a revolutionary change in the
landscape of NLP. Although ChatGPT has consistently shown impressive
performance on English benchmarks, its exact capabilities on most other
languages remain largely unknown. To better understand ChatGPT's capabilities
on Arabic, we present a large-scale evaluation of the model on a broad range of
Arabic NLP tasks. Namely, we evaluate ChatGPT on 32 diverse natural language
understanding and generation tasks on over 60 different datasets. To the best
of our knowledge, our work offers the first performance analysis of ChatGPT on
Arabic NLP at such a massive scale. Our results show that, despite its success
on English benchmarks, ChatGPT trained in-context (few-shot) is consistently
outperformed by much smaller dedicated models finetuned on Arabic. These
results suggest that there is significant place for improvement for
instruction-tuned LLMs such as ChatGPT.
- Abstract(参考訳): 最近のChatGPTの出現は、NLPの風景に革命的な変化をもたらした。
ChatGPTは一貫して英語のベンチマークで顕著な性能を示しているが、他のほとんどの言語での正確な性能はほとんど不明である。
アラビア語におけるChatGPTの能力をよりよく理解するために、広範囲のアラビア語NLPタスクにおいて、モデルを大規模に評価する。
すなわち、ChatGPTを32種類の自然言語理解および生成タスクで60以上のデータセット上で評価する。
我々の知る限り、我々の研究はアラビア語のNLP上でのChatGPTの大規模なパフォーマンス分析を初めて提供する。
我々の結果は、英語のベンチマークで成功したにもかかわらず、ChatGPTで訓練されたインコンテキスト(フェーショット)は、アラビア語で微調整されたより小さな専用モデルよりも一貫して優れていることを示している。
これらの結果から,ChatGPT などの命令調整 LLM の改善には重要な場所があることが示唆された。
関連論文リスト
- The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic [0.0]
アラビア語におけるモデルの数学的推論と言語理解能力を評価するために設計された2つの新しいベンチマークを導入する。
これらのベンチマークは、サウジアラビアの大学入試に広く使用される標準化された試験であるカイヤス試験(英語版)と呼ばれる一般適性試験(GAT)に由来する。
論文 参考訳(メタデータ) (2024-06-28T16:34:31Z) - Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models [6.145834902689888]
大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-28T15:54:29Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - ChatGPT-Crawler: Find out if ChatGPT really knows what it's talking
about [15.19126287569545]
本研究では,異なる対話型QAコーパスからChatGPTが生成する応答について検討する。
この研究はBERT類似度スコアを用いて、これらの回答を正しい回答と比較し、自然言語推論(NLI)ラベルを得る。
調査では、ChatGPTが質問に対する誤った回答を提供し、モデルがエラーを起こしやすい領域について洞察を与えている事例を特定した。
論文 参考訳(メタデータ) (2023-04-06T18:42:47Z) - Comparative Analysis of CHATGPT and the evolution of language models [0.0]
本稿では,機械翻訳,機械要約,質問応答,言語生成など,NLPにおける一般的な考え方を紹介する。
大規模言語モデルの安全な大規模導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。
論文 参考訳(メタデータ) (2023-03-28T03:11:28Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine [97.8609714773255]
機械翻訳におけるChatGPTの評価には,翻訳プロンプト,多言語翻訳,翻訳堅牢性などが含まれる。
ChatGPTは商用翻訳製品と競合するが、低リソースや遠方の言語では遅れている。
GPT-4エンジンの打ち上げにより、ChatGPTの翻訳性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-01-20T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。