論文の概要: VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.12199v1
- Date: Sat, 20 May 2023 14:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:57:48.530065
- Title: VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models
- Title(参考訳): vnhsge: 大言語モデルのためのベトナム高校卒業試験データセット
- Authors: Dao Xuan-Quy and Le Ngoc-Bich and Vo The-Duy and Phan Xuan-Dung and
Ngo Bac-Bien and Nguyen Van-Tien and Nguyen Thi-My-Thanh and Nguyen
Hong-Phuoc
- Abstract要約: 本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。
このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The VNHSGE (VietNamese High School Graduation Examination) dataset, developed
exclusively for evaluating large language models (LLMs), is introduced in this
article. The dataset, which covers nine subjects, was generated from the
Vietnamese National High School Graduation Examination and comparable tests.
300 literary essays have been included, and there are over 19,000
multiple-choice questions on a range of topics. The dataset assesses LLMs in
multitasking situations such as question answering, text generation, reading
comprehension, visual question answering, and more by including both textual
data and accompanying images. Using ChatGPT and BingChat, we evaluated LLMs on
the VNHSGE dataset and contrasted their performance with that of Vietnamese
students to see how well they performed. The results show that ChatGPT and
BingChat both perform at a human level in a number of areas, including
literature, English, history, geography, and civics education. They still have
space to grow, though, especially in the areas of mathematics, physics,
chemistry, and biology. The VNHSGE dataset seeks to provide an adequate
benchmark for assessing the abilities of LLMs with its wide-ranging coverage
and variety of activities. We intend to promote future developments in the
creation of LLMs by making this dataset available to the scientific community,
especially in resolving LLMs' limits in disciplines involving mathematics and
the natural sciences.
- Abstract(参考訳): 本稿では、大規模言語モデル(llms)の評価専用に開発されたvnhsge(vietnamese high school graduated examination)データセットについて紹介する。
9つの被験者をカバーするこのデータセットは、ベトナム国立高校卒業試験と同等のテストから生成された。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
このデータセットは、質問応答、テキスト生成、読解、視覚的質問応答などのマルチタスクの状況において、テキストデータと付随する画像の両方を含めることでLCMを評価する。
筆者らはChatGPTとBingChatを用いて,VNHSGEデータセット上のLLMを評価し,ベトナムの学生の成績を比較検討した。
その結果,ChatGPTとBingChatは文学,英語,歴史,地理,市民教育など,さまざまな分野において人間レベルのパフォーマンスを発揮していることがわかった。
しかし、特に数学、物理学、化学、生物学の分野では成長の余地がある。
VNHSGEデータセットは、広範囲のカバレッジとさまざまな活動でLLMの能力を評価するための適切なベンチマークを提供する。
我々は,このデータセットを科学コミュニティ,特に数学と自然科学の分野におけるLLMの限界を解消することで,LLMの作成における今後の発展を促進することを目的としている。
関連論文リスト
- Language Models as Science Tutors [80.5847894062664]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Multi-dimensional data refining strategy for effective fine-tuning LLMs [2.67766280323297]
本稿では,ベトナム語の微調整モデルに適したクロールおよび精錬時に学んだ教訓について述べる。
本稿では、既存のデータセットを英語で活用し、生成AIツールの助けを借りて、カスタマイズされたデータクローリングスクリプトを開発する多次元戦略を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:50:43Z) - Evaluating the Symbol Binding Ability of Large Language Models for
Multiple-Choice Questions in Vietnamese General Education [0.16317061277457]
我々は,複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定で複数選択シンボルバインディング(MCSB)を実行する大規模言語モデル(LLM)の能力を評価する。
このデータセットは、厳密なスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用することができる。
論文 参考訳(メタデータ) (2023-10-18T15:48:07Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。