論文の概要: MEGAVERSE: Benchmarking Large Language Models Across Languages,
Modalities, Models and Tasks
- arxiv url: http://arxiv.org/abs/2311.07463v1
- Date: Mon, 13 Nov 2023 16:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:34:44.506426
- Title: MEGAVERSE: Benchmarking Large Language Models Across Languages,
Modalities, Models and Tasks
- Title(参考訳): MEGAVERSE: 言語、モダリティ、モデル、タスクにわたる大規模言語モデルのベンチマーク
- Authors: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh
Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika
Bali, Sunayana Sitaram
- Abstract要約: 本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAスイートを拡張することを目的としている。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
- 参考スコア(独自算出の注目度): 13.042411211765387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の研究が急速に進展し,いくつかの自然言語処理(NLP)タスクが大幅に進歩している。
その結果、モデルの性能と限界を理解するためのLCM評価研究が急増した。
しかし、この研究の多くは英語に限られており、LLMの構築と非英語言語の評価は比較的未調査のままである。
英語以外の言語での評価を必要とするいくつかの新しいLLMが導入されている。
本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAベンチマークスイートを拡張することを目的とする。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
さらに、ベンチマークに2つのマルチモーダルデータセットを含め、LLaVa-v1.5モデルの性能を評価する。
GPT4 と PaLM2 は様々なタスク,特に低リソース言語において Llama モデルよりも優れており,その逆よりも多くのデータセットで PaLM2 よりも優れていた。
しかし、非英語言語におけるLLM性能の正確な評価を得るためには、データ汚染などの問題に対処する必要がある。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。
GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文 参考訳(メタデータ) (2024-10-17T02:12:30Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。