Fugu-MT 論文翻訳(概要): VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models

論文の概要: VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models

arxiv url: http://arxiv.org/abs/2305.12199v1
Date: Sat, 20 May 2023 14:13:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 23:57:48.530065
Title: VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models
Title（参考訳）: vnhsge: 大言語モデルのためのベトナム高校卒業試験データセット
Authors: Dao Xuan-Quy and Le Ngoc-Bich and Vo The-Duy and Phan Xuan-Dung and Ngo Bac-Bien and Nguyen Van-Tien and Nguyen Thi-My-Thanh and Nguyen Hong-Phuoc
Abstract要約: 本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。 300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The VNHSGE (VietNamese High School Graduation Examination) dataset, developed exclusively for evaluating large language models (LLMs), is introduced in this article. The dataset, which covers nine subjects, was generated from the Vietnamese National High School Graduation Examination and comparable tests. 300 literary essays have been included, and there are over 19,000 multiple-choice questions on a range of topics. The dataset assesses LLMs in multitasking situations such as question answering, text generation, reading comprehension, visual question answering, and more by including both textual data and accompanying images. Using ChatGPT and BingChat, we evaluated LLMs on the VNHSGE dataset and contrasted their performance with that of Vietnamese students to see how well they performed. The results show that ChatGPT and BingChat both perform at a human level in a number of areas, including literature, English, history, geography, and civics education. They still have space to grow, though, especially in the areas of mathematics, physics, chemistry, and biology. The VNHSGE dataset seeks to provide an adequate benchmark for assessing the abilities of LLMs with its wide-ranging coverage and variety of activities. We intend to promote future developments in the creation of LLMs by making this dataset available to the scientific community, especially in resolving LLMs' limits in disciplines involving mathematics and the natural sciences.
Abstract（参考訳）: 本稿では、大規模言語モデル(llms)の評価専用に開発されたvnhsge(vietnamese high school graduated examination)データセットについて紹介する。 9つの被験者をカバーするこのデータセットは、ベトナム国立高校卒業試験と同等のテストから生成された。 300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。このデータセットは、質問応答、テキスト生成、読解、視覚的質問応答などのマルチタスクの状況において、テキストデータと付随する画像の両方を含めることでLCMを評価する。筆者らはChatGPTとBingChatを用いて,VNHSGEデータセット上のLLMを評価し,ベトナムの学生の成績を比較検討した。その結果,ChatGPTとBingChatは文学,英語,歴史,地理,市民教育など,さまざまな分野において人間レベルのパフォーマンスを発揮していることがわかった。しかし、特に数学、物理学、化学、生物学の分野では成長の余地がある。 VNHSGEデータセットは、広範囲のカバレッジとさまざまな活動でLLMの能力を評価するための適切なベンチマークを提供する。我々は,このデータセットを科学コミュニティ,特に数学と自然科学の分野におけるLLMの限界を解消することで,LLMの作成における今後の発展を促進することを目的としている。

関連論文リスト

MateInfoUB: A Real-World Benchmark for Testing LLMs in Competitive, Multilingual, and Multimodal Educational Tasks [0.0]
本研究では, バイリンガル (英語-ルーマニア語) マルチモーダル (テキストと画像) による複数質問のデータセットを提案する。我々のデータセットの特長は、問題のいくつかが論文の推論で簡単に解けるように考えられているのに対して、他の方法ではより効率的であることです。
論文参考訳（メタデータ） (2025-07-03T20:43:28Z)
NEU-ESC: A Comprehensive Vietnamese dataset for Educational Sentiment analysis and topic Classification toward multitask learning [0.0]
NEU-ESCは,ベトナムの教育感覚分類とトピック分類のための新しいデータセットである。 NEU-ESCは、より多くのサンプル、より豊かなクラス多様性、より長いテキスト、より広い語彙を提供する大学のフォーラムからキュレーションされている。さらに、エンコーダのみの言語モデル(BERT)を用いてマルチタスク学習を行い、感情やトピックの分類タスクにおいて、最大83.7%、79.8%の性能を達成する。
論文参考訳（メタデータ） (2025-06-30T05:19:04Z)
AraSTEM: A Native Arabic Multiple Choice Question Benchmark for Evaluating LLMs Knowledge In STEM Subjects [0.6564819194719582]
我々は、STEM科目におけるLarge Language Models (LLMs) の知識を評価することを目的とした、アラビア語多目的質問データセットであるAraSTEMを紹介する。このデータセットはさまざまなレベルのトピックにまたがっており、高い精度を達成するためには、科学的アラビアの深い理解をモデルに示さなければならない。以上の結果から, 様々なサイズの公開モデルがこのデータセットに苦慮し, より局所的な言語モデルの必要性を浮き彫りにしていることがわかった。
論文参考訳（メタデータ） (2024-12-31T17:45:12Z)
Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文参考訳（メタデータ） (2024-11-27T19:19:34Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文参考訳（メタデータ） (2024-05-16T15:02:24Z)
Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT [2.8000537365271367]
大規模言語モデル(LLM)は活発な研究トピックとして現れている。 LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処において課題に直面している。本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。
論文参考訳（メタデータ） (2024-04-14T16:34:31Z)
EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models [29.31649801849329]
EXAMS-Vは、視覚言語モデルを評価するための、新しい挑戦的なマルチディシプリルマルチモーダル多言語試験ベンチマークである。自然科学、社会科学、その他の雑学を対象とする20の学派にまたがる20,932の質問からなる。質問は7つの言語ファミリーから11の言語で行われます。
論文参考訳（メタデータ） (2024-03-15T15:08:39Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文参考訳（メタデータ） (2023-10-26T17:05:40Z)
Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education [0.16317061277457]
我々は,複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定で複数選択シンボルバインディング(MCSB)を実行する大規模言語モデル(LLM)の能力を評価する。このデータセットは、厳密なスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用することができる。
論文参考訳（メタデータ） (2023-10-18T15:48:07Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文参考訳（メタデータ） (2023-06-29T02:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。