Fugu-MT 論文翻訳(概要): ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models

論文の概要: ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models

arxiv url: http://arxiv.org/abs/2404.11086v2
Date: Thu, 18 Apr 2024 07:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 11:42:38.898463
Title: ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models
Title（参考訳）: ViLLM-Eval:ベトナムの大規模言語モデルのための総合評価スイート
Authors: Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen,
Abstract要約: ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。 ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The rapid advancement of large language models (LLMs) necessitates the development of new benchmarks to accurately assess their capabilities. To address this need for Vietnamese, this work aims to introduce ViLLM-Eval, the comprehensive evaluation suite designed to measure the advanced knowledge and reasoning abilities of foundation models within a Vietnamese context. ViLLM-Eval consists of multiple-choice questions and predict next word tasks spanning various difficulty levels and diverse disciplines, ranging from humanities to science and engineering. A thorough evaluation of the most advanced LLMs on ViLLM-Eval revealed that even the best performing models have significant room for improvement in understanding and responding to Vietnamese language tasks. ViLLM-Eval is believed to be instrumental in identifying key strengths and weaknesses of foundation models, ultimately promoting their development and enhancing their performance for Vietnamese users. This paper provides a thorough overview of ViLLM-Eval as part of the Vietnamese Large Language Model shared task, held within the 10th International Workshop on Vietnamese Language and Speech Processing (VLSP 2023).
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、それらの能力を正確に評価するために、新しいベンチマークの開発を必要とする。ベトナムにおけるこのニーズに対処するため、ベトナムの文脈における基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートであるViLLM-Evalを導入することを目的とする。 ViLLM-Evalは、人文科学から工学まで、さまざまな難易度と様々な分野にまたがる、複数選択の質問と次の単語タスクの予測で構成されている。 ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高のパフォーマンスモデルでさえベトナム語のタスクに対する理解と応答の改善に十分な余地があることが判明した。 ViLLM-Evalは、ファンデーションモデルの重要な長所と短所を特定し、最終的にベトナムのユーザのために開発を促進し、パフォーマンスを向上させるのに役立っていると考えられている。本稿では,ベトナム語と音声処理に関する第10回国際ワークショップ(VLSP 2023)で開催されているベトナム語大言語モデル共有タスクの一環として,VLLM-Evalの概要を紹介する。

関連論文リスト

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文参考訳（メタデータ） (2024-12-06T16:06:08Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。 SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文参考訳（メタデータ） (2024-07-29T03:26:22Z)
VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。 VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文参考訳（メタデータ） (2024-03-23T16:26:49Z)
Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文参考訳（メタデータ） (2024-03-20T10:14:13Z)
VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文参考訳（メタデータ） (2024-02-05T00:54:40Z)
VinaLLaMA: LLaMA-based Vietnamese Foundation Model [4.531874270358511]
VinaLLaMAはベトナム語のためのオープンウェイトで最先端のSOTA(Large Language Model)である。 100万の高品質な合成サンプルをトレーニングしたVinaLLaMA-7B-chatは、VLSP、VMLU、Vicuna Benchmark Vietnamを含む主要なベンチマークでSOTA結果を得る。
論文参考訳（メタデータ） (2023-12-18T08:27:33Z)
ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文参考訳（メタデータ） (2023-10-17T11:34:50Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。 C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文参考訳（メタデータ） (2023-05-15T03:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。