論文の概要: ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11086v2
- Date: Thu, 18 Apr 2024 07:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 11:42:38.898463
- Title: ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models
- Title(参考訳): ViLLM-Eval:ベトナムの大規模言語モデルのための総合評価スイート
- Authors: Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen,
- Abstract要約: ViLLM-Evalは、基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートである。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高の性能のモデルでさえ改善の余地があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language models (LLMs) necessitates the development of new benchmarks to accurately assess their capabilities. To address this need for Vietnamese, this work aims to introduce ViLLM-Eval, the comprehensive evaluation suite designed to measure the advanced knowledge and reasoning abilities of foundation models within a Vietnamese context. ViLLM-Eval consists of multiple-choice questions and predict next word tasks spanning various difficulty levels and diverse disciplines, ranging from humanities to science and engineering. A thorough evaluation of the most advanced LLMs on ViLLM-Eval revealed that even the best performing models have significant room for improvement in understanding and responding to Vietnamese language tasks. ViLLM-Eval is believed to be instrumental in identifying key strengths and weaknesses of foundation models, ultimately promoting their development and enhancing their performance for Vietnamese users. This paper provides a thorough overview of ViLLM-Eval as part of the Vietnamese Large Language Model shared task, held within the 10th International Workshop on Vietnamese Language and Speech Processing (VLSP 2023).
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、それらの能力を正確に評価するために、新しいベンチマークの開発を必要とする。
ベトナムにおけるこのニーズに対処するため、ベトナムの文脈における基礎モデルの高度な知識と推論能力を測定するために設計された総合的な評価スイートであるViLLM-Evalを導入することを目的とする。
ViLLM-Evalは、人文科学から工学まで、さまざまな難易度と様々な分野にまたがる、複数選択の質問と次の単語タスクの予測で構成されている。
ViLLM-Eval上での最も先進的なLCMの徹底的な評価により、最高のパフォーマンスモデルでさえベトナム語のタスクに対する理解と応答の改善に十分な余地があることが判明した。
ViLLM-Evalは、ファンデーションモデルの重要な長所と短所を特定し、最終的にベトナムのユーザのために開発を促進し、パフォーマンスを向上させるのに役立っていると考えられている。
本稿では,ベトナム語と音声処理に関する第10回国際ワークショップ(VLSP 2023)で開催されているベトナム語大言語モデル共有タスクの一環として,VLLM-Evalの概要を紹介する。
関連論文リスト
- VLUE: A New Benchmark and Multi-task Knowledge Transfer Learning for Vietnamese Natural Language Understanding [1.813644606477824]
本稿ではベトナム語理解評価(VLUE)ベンチマークについて紹介する。
VLUEベンチマークは、テキスト分類、スパン抽出、自然言語理解など、異なるNLUタスクをカバーする5つのデータセットを含んでいる。
提案するCafeBERTは,VLUEベンチマークのすべてのタスクにおいて優れた結果が得られる,最先端の事前訓練モデルである。
論文 参考訳(メタデータ) (2024-03-23T16:26:49Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - VinaLLaMA: LLaMA-based Vietnamese Foundation Model [4.531874270358511]
VinaLLaMAはベトナム語のためのオープンウェイトで最先端のSOTA(Large Language Model)である。
100万の高品質な合成サンプルをトレーニングしたVinaLLaMA-7B-chatは、VLSP、VMLU、Vicuna Benchmark Vietnamを含む主要なベンチマークでSOTA結果を得る。
論文 参考訳(メタデータ) (2023-12-18T08:27:33Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文 参考訳(メタデータ) (2023-05-15T03:20:19Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。