Fugu-MT 論文翻訳(概要): MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

論文の概要: MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

arxiv url: http://arxiv.org/abs/2311.07463v1
Date: Mon, 13 Nov 2023 16:45:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 13:34:44.506426
Title: MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
Title（参考訳）: MEGAVERSE: 言語、モダリティ、モデル、タスクにわたる大規模言語モデルのベンチマーク
Authors: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
Abstract要約: 本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAスイートを拡張することを目的としている。ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
参考スコア（独自算出の注目度）: 13.042411211765387
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.
Abstract（参考訳）: 近年,Large Language Models (LLMs) の研究が急速に進展し,いくつかの自然言語処理(NLP)タスクが大幅に進歩している。その結果、モデルの性能と限界を理解するためのLCM評価研究が急増した。しかし、この研究の多くは英語に限られており、LLMの構築と非英語言語の評価は比較的未調査のままである。英語以外の言語での評価を必要とするいくつかの新しいLLMが導入されている。本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAベンチマークスイートを拡張することを目的とする。ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。さらに、ベンチマークに2つのマルチモーダルデータセットを含め、LLaVa-v1.5モデルの性能を評価する。 GPT4 と PaLM2 は様々なタスク,特に低リソース言語において Llama モデルよりも優れており,その逆よりも多くのデータセットで PaLM2 よりも優れていた。しかし、非英語言語におけるLLM性能の正確な評価を得るためには、データ汚染などの問題に対処する必要がある。

関連論文リスト

mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [11.996399504336624]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文参考訳（メタデータ） (2025-06-10T03:15:08Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。 GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文参考訳（メタデータ） (2024-10-17T02:12:30Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
SCALE: Synergized Collaboration of Asymmetric Language Translation Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。 STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2023-09-29T08:46:38Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。本稿では, MMT における LLM の利点と課題を体系的に検討する。また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文参考訳（メタデータ） (2023-04-10T15:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。