Fugu-MT 論文翻訳(概要): MEGA: Multilingual Evaluation of Generative AI

論文の概要: MEGA: Multilingual Evaluation of Generative AI

arxiv url: http://arxiv.org/abs/2303.12528v4
Date: Sun, 22 Oct 2023 22:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 13:13:29.343064
Title: MEGA: Multilingual Evaluation of Generative AI
Title（参考訳）: MEGA: 生成AIの多言語評価
Authors: Kabir Ahuja and Harshita Diddee and Rishav Hada and Millicent Ochieng and Krithika Ramesh and Prachi Jain and Akshay Nambi and Tanuja Ganu and Sameer Segal and Maxamed Axmed and Kalika Bali and Sunayana Sitaram
Abstract要約: 生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 LLMのほとんどの研究は英語に限られている。これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
参考スコア（独自算出の注目度）: 23.109803506475174
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI models have shown impressive performance on many Natural Language Processing tasks such as language understanding, reasoning, and language generation. An important question being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative LLMs have been restricted to English and it is unclear how capable these models are at understanding and generating text in other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 16 NLP datasets across 70 typologically diverse languages. We compare the performance of generative LLMs including Chat-GPT and GPT-4 to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and tasks and discuss challenges in improving the performance of generative LLMs on low-resource languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field.
Abstract（参考訳）: 生成AIモデルは、言語理解、推論、言語生成など、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。今日のAIコミュニティから求められている重要な質問は、これらのモデルの能力と限界についてであり、生成的AIを評価することが非常に難しいことは明らかである。生成 LLM に関するほとんどの研究は英語に限られており、これらのモデルが他言語でのテキストの理解と生成にどの程度の能力があるかは不明である。我々は,70言語にまたがる16のNLPデータセットを網羅し,標準NLPベンチマークのモデル評価を行う,ジェネレーティブLLMの最初の総合ベンチマークであるMEGAを提案する。これらの課題に対して,Chat-GPT や GPT-4 などの生成 LLM と State of the Art (SOTA) の非自己回帰モデルの性能を比較し,前世代の LLM と比較した。本稿では,言語とタスク間のモデルの性能を徹底的に分析し,低リソース言語における生成LDMの性能向上の課題について論じる。我々は,多言語設定におけるジェネレーティブLLMの評価フレームワークを作成し,今後の発展に向けての方向性を提供する。

関連論文リスト

Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.041894045506043]
より広範なアプリケーションに対して、強力なパフォーマンスとポテンシャルを示す4つの方法とモデルに焦点を当てます。これには多様性の表現性の向上、出力品質の向上、アプリケーションの柔軟性の向上などが含まれる。
論文参考訳（メタデータ） (2025-03-13T18:50:57Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
CUDRT: Benchmarking the Detection Models of Human vs. Large Language Models Generated Texts [9.682499180341273]
大規模言語モデル(LLM)は、産業全体にわたってテキスト生成を大幅に強化した。彼らの人間的なアウトプットは、人間とAIの作者の区別を困難にしている。現在のベンチマークは主に静的データセットに依存しており、モデルベースの検出器の評価の有効性を制限している。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文参考訳（メタデータ） (2024-05-16T16:56:54Z)
Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文参考訳（メタデータ） (2024-02-12T19:25:11Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文参考訳（メタデータ） (2023-11-15T15:12:15Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Benchmarking Large Language Model Capabilities for Conditional Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。 PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文参考訳（メタデータ） (2023-06-29T08:59:40Z)
Extrapolating Multilingual Understanding Models as Multilingual Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-22T15:33:21Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。