論文の概要: VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.12199v1
- Date: Sat, 20 May 2023 14:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:57:48.530065
- Title: VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models
- Title(参考訳): vnhsge: 大言語モデルのためのベトナム高校卒業試験データセット
- Authors: Dao Xuan-Quy and Le Ngoc-Bich and Vo The-Duy and Phan Xuan-Dung and
Ngo Bac-Bien and Nguyen Van-Tien and Nguyen Thi-My-Thanh and Nguyen
Hong-Phuoc
- Abstract要約: 本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。
このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The VNHSGE (VietNamese High School Graduation Examination) dataset, developed
exclusively for evaluating large language models (LLMs), is introduced in this
article. The dataset, which covers nine subjects, was generated from the
Vietnamese National High School Graduation Examination and comparable tests.
300 literary essays have been included, and there are over 19,000
multiple-choice questions on a range of topics. The dataset assesses LLMs in
multitasking situations such as question answering, text generation, reading
comprehension, visual question answering, and more by including both textual
data and accompanying images. Using ChatGPT and BingChat, we evaluated LLMs on
the VNHSGE dataset and contrasted their performance with that of Vietnamese
students to see how well they performed. The results show that ChatGPT and
BingChat both perform at a human level in a number of areas, including
literature, English, history, geography, and civics education. They still have
space to grow, though, especially in the areas of mathematics, physics,
chemistry, and biology. The VNHSGE dataset seeks to provide an adequate
benchmark for assessing the abilities of LLMs with its wide-ranging coverage
and variety of activities. We intend to promote future developments in the
creation of LLMs by making this dataset available to the scientific community,
especially in resolving LLMs' limits in disciplines involving mathematics and
the natural sciences.
- Abstract(参考訳): 本稿では、大規模言語モデル(llms)の評価専用に開発されたvnhsge(vietnamese high school graduated examination)データセットについて紹介する。
9つの被験者をカバーするこのデータセットは、ベトナム国立高校卒業試験と同等のテストから生成された。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
このデータセットは、質問応答、テキスト生成、読解、視覚的質問応答などのマルチタスクの状況において、テキストデータと付随する画像の両方を含めることでLCMを評価する。
筆者らはChatGPTとBingChatを用いて,VNHSGEデータセット上のLLMを評価し,ベトナムの学生の成績を比較検討した。
その結果,ChatGPTとBingChatは文学,英語,歴史,地理,市民教育など,さまざまな分野において人間レベルのパフォーマンスを発揮していることがわかった。
しかし、特に数学、物理学、化学、生物学の分野では成長の余地がある。
VNHSGEデータセットは、広範囲のカバレッジとさまざまな活動でLLMの能力を評価するための適切なベンチマークを提供する。
我々は,このデータセットを科学コミュニティ,特に数学と自然科学の分野におけるLLMの限界を解消することで,LLMの作成における今後の発展を促進することを目的としている。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。
LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。
本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T16:34:31Z) - EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.31649801849329]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。
自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。
質問は7つの言語ファミリーから11の言語で行われます。
論文 参考訳(メタデータ) (2024-03-15T15:08:39Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z) - Evaluating the Symbol Binding Ability of Large Language Models for
Multiple-Choice Questions in Vietnamese General Education [0.16317061277457]
我々は,複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定で複数選択シンボルバインディング(MCSB)を実行する大規模言語モデル(LLM)の能力を評価する。
このデータセットは、厳密なスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用することができる。
論文 参考訳(メタデータ) (2023-10-18T15:48:07Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。