論文の概要: MEGA: Multilingual Evaluation of Generative AI
- arxiv url: http://arxiv.org/abs/2303.12528v1
- Date: Wed, 22 Mar 2023 13:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:16:53.771836
- Title: MEGA: Multilingual Evaluation of Generative AI
- Title(参考訳): MEGA: 生成AIの多言語評価
- Authors: Kabir Ahuja and Rishav Hada and Millicent Ochieng and Prachi Jain and
Harshita Diddee and Samuel Maina and Tanuja Ganu and Sameer Segal and Maxamed
Axmed and Kalika Bali and Sunayana Sitaram
- Abstract要約: 生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。
ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。
これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
- 参考スコア(独自算出の注目度): 6.319769089715718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI models have impressive performance on many Natural Language
Processing tasks such as language understanding, reasoning and language
generation. One of the most important questions that is being asked by the AI
community today is about the capabilities and limits of these models, and it is
clear that evaluating generative AI is very challenging. Most studies on
generative Large Language Models (LLMs) are restricted to English and it is
unclear how capable these models are at understanding and generating other
languages. We present the first comprehensive benchmarking of generative LLMs -
MEGA, which evaluates models on standard NLP benchmarks, covering 8 diverse
tasks and 33 typologically diverse languages. We also compare the performance
of generative LLMs to State of the Art (SOTA) non-autoregressive models on
these tasks to determine how well generative models perform compared to the
previous generation of LLMs. We present a thorough analysis of the performance
of models across languages and discuss some of the reasons why generative LLMs
are currently not optimal for all languages. We create a framework for
evaluating generative LLMs in the multilingual setting and provide directions
for future progress in the field.
- Abstract(参考訳): 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。
今日のAIコミュニティから求められている最も重要な質問の1つは、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。
生成型大言語モデル(llm)の研究のほとんどは英語に限られており、これらのモデルが他言語をいかに理解し生成できるかは不明である。
そこで本研究では,標準NLPベンチマークのモデル評価を行うジェネレーティブLLMsMEGAの総合ベンチマークを行い,8つのタスクと33の言語を網羅した。
また, 生成型LLMの性能を, これらのタスクにおける非自己回帰モデル(SOTA)と比較し, 生成型LLMと比較して, 生成型モデルの性能について検討した。
本稿では, 言語間でのモデルの性能を徹底的に分析し, 生成LDMが現在すべての言語に最適でない理由について論じる。
我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。
関連論文リスト
- mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。
彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。
現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。