論文の概要: Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models
- arxiv url: http://arxiv.org/abs/2306.16322v1
- Date: Wed, 28 Jun 2023 15:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 13:34:55.405535
- Title: Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models
- Title(参考訳): Taqyim: ChatGPTモデルによるアラビアNLPタスクの評価
- Authors: Zaid Alyafeai and Maged S. Alshaibani and Badr AlKhamissi and Hamzah
Luqman and Ebrahim Alareqi and Ali Fadel
- Abstract要約: 大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 6.145834902689888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance on
various downstream tasks without requiring fine-tuning, including ChatGPT, a
chat-based model built on top of LLMs such as GPT-3.5 and GPT-4. Despite having
a lower training proportion compared to English, these models also exhibit
remarkable capabilities in other languages. In this study, we assess the
performance of GPT-3.5 and GPT-4 models on seven distinct Arabic NLP tasks:
sentiment analysis, translation, transliteration, paraphrasing, part of speech
tagging, summarization, and diacritization. Our findings reveal that GPT-4
outperforms GPT-3.5 on five out of the seven tasks. Furthermore, we conduct an
extensive analysis of the sentiment analysis task, providing insights into how
LLMs achieve exceptional results on a challenging dialectal dataset.
Additionally, we introduce a new Python interface
https://github.com/ARBML/Taqyim that facilitates the evaluation of these tasks
effortlessly.
- Abstract(参考訳): GPT-3.5やGPT-4のようなLLM上に構築されたチャットベースのモデルChatGPTなど、さまざまなダウンストリームタスクにおいて、微調整を必要とせずに、大きな言語モデル(LLM)が印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では, 感情分析, 翻訳, 翻訳, パラフレージング, 音声タグ付け, 要約, ダイアクリマイゼーションの7つの異なるNLPタスクにおけるGPT-3.5およびGPT-4モデルの性能評価を行った。
GPT-4は7タスク中5タスクでGPT-3.5を上回った。
さらに、感情分析タスクを広範囲に分析し、難易度データセット上でLCMが例外的な結果を得る方法について考察する。
さらに,これらのタスクの評価を容易にする新しいPythonインターフェース https://github.com/ARBML/Taqyimを導入する。
関連論文リスト
- Generalists vs. Specialists: Evaluating Large Language Models for Urdu [4.8539869147159616]
我々は, GPT-4-Turbo と Llama-3-8b の汎用モデルと, 特殊目的モデル-XLM-Roberta-large, mT5-large, Llama-3-8b を比較した。
我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と7つの世代タスクに焦点を当てる。
論文 参考訳(メタデータ) (2024-07-05T12:09:40Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [29.914546407784552]
GLoREは3種類のタスクにまたがる12のデータセットからなるベンチマークである。
ChatGPTとGPT-4は論理的推論の強い能力を示し、GPT-4はChatGPTをはるかに上回っている。
本稿では,ChatGPTの精度を高める自己整合性探索法と,オープンLLMの性能を向上させる微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - GPTAraEval: A Comprehensive Evaluation of ChatGPT on Arabic NLP [21.6253870440136]
本研究は,44の言語理解・生成タスクを含むChatGPTの大規模自動・人為的評価を行う。
以上の結果から,ChatGPTは英語における顕著な性能にもかかわらず,アラビア語を微調整した小型モデルでは一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T10:12:39Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。