論文の概要: Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT
- arxiv url: http://arxiv.org/abs/2404.02403v1
- Date: Wed, 3 Apr 2024 02:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:49:24.893568
- Title: Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT
- Title(参考訳): ペルシア語のための大規模言語モデルのベンチマーク:ChatGPTに着目した予備的研究
- Authors: Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi, Yadollah Yaghoobzadeh,
- Abstract要約: 本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
- 参考スコア(独自算出の注目度): 4.574416868427695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. We present the first comprehensive benchmarking study of LLMs across diverse Persian language tasks. Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models. Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades. Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5. These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.
- Abstract(参考訳): 本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
ChatGPT と後続の LLM は英語で顕著な性能を示したが、低リソース言語の効率性は未解決のままである。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
我々の主な焦点はGPT-3.5-turboであるが、GPT-4とOpenChat-3.5も含み、より総合的な評価を提供する。
我々の評価は、古典的、推論、知識に基づくドメインに分類される様々なタスクの集合を含んでいる。
そこで本研究では,従来のタスク固有の微調整モデルと比較し,LLMの評価を行った。
推論タスクのためのペルシア語のデータセットが限られていることを踏まえ,小学校数学の質問に基づくベンチマークと,7年生と10年生の入学試験から得られたベンチマークを新たに導入した。
以上の結果から, LLM, 特にGPT-4は, 推論能力と一般知識の広い理解を必要とするタスクに優れるが, 特定のタスクに特化して微調整されたより小型の事前学習モデルに遅れが生じることが示唆された。
さらに,GPT-3.5に入力する前に,テストセットを英語に翻訳する際の性能向上を観察した。
これらの結果は,ペルシャ語におけるLLM性能向上の意義を浮き彫りにしている。
特に注目に値するのはペルシア語の特徴であり、その異なるアルファベットや書体が特徴である。
関連論文リスト
- One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。
近年の研究では、低リソース言語におけるLLMの限界が強調されている。
英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文 参考訳(メタデータ) (2024-08-05T05:09:23Z) - Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? [3.4812080203308984]
ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。
Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
論文 参考訳(メタデータ) (2024-04-09T22:38:13Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - A Survey of GPT-3 Family Large Language Models Including ChatGPT and
GPT-4 [4.206175795966694]
LLM(Large Language Model)は、モデルのサイズを拡大し、コーパスを事前訓練し、計算することで得られる訓練済み言語モデルの特殊なクラスである。
我々は GPT-3 とその後継 OpenAI モデルである ChatGPT と GPT4 を GPT-3 ファミリー大言語モデル (GLLM) と呼ぶ。
論文 参考訳(メタデータ) (2023-10-04T16:37:05Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z) - Taqyim: Evaluating Arabic NLP Tasks Using ChatGPT Models [6.145834902689888]
大規模言語モデル(LLM)は、微調整を必要とせず、様々な下流タスクにおける印象的なパフォーマンスを示している。
英語に比べて訓練率が低いにもかかわらず、これらのモデルは他の言語でも顕著な能力を示す。
本研究では,7つの異なるNLPタスクにおいて,GPT-3.5およびGPT-4モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-28T15:54:29Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。