論文の概要: Evaluating the Symbol Binding Ability of Large Language Models for
Multiple-Choice Questions in Vietnamese General Education
- arxiv url: http://arxiv.org/abs/2310.12059v1
- Date: Wed, 18 Oct 2023 15:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:55:23.001971
- Title: Evaluating the Symbol Binding Ability of Large Language Models for
Multiple-Choice Questions in Vietnamese General Education
- Title(参考訳): ベトナム一般教育における多言語問題に対する大言語モデルの記号結合能力の評価
- Authors: Duc-Vu Nguyen, Quoc-Nam Nguyen
- Abstract要約: 我々は,複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定で複数選択シンボルバインディング(MCSB)を実行する大規模言語モデル(LLM)の能力を評価する。
このデータセットは、厳密なスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用することができる。
- 参考スコア(独自算出の注目度): 0.16317061277457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we evaluate the ability of large language models (LLMs) to
perform multiple choice symbol binding (MCSB) for multiple choice question
answering (MCQA) tasks in zero-shot, one-shot, and few-shot settings. We focus
on Vietnamese, with fewer challenging MCQA datasets than in English. The two
existing datasets, ViMMRC 1.0 and ViMMRC 2.0, focus on literature. Recent
research in Vietnamese natural language processing (NLP) has focused on the
Vietnamese National High School Graduation Examination (VNHSGE) from 2019 to
2023 to evaluate ChatGPT. However, these studies have mainly focused on how
ChatGPT solves the VNHSGE step by step. We aim to create a novel and
high-quality dataset by providing structured guidelines for typing LaTeX
formulas for mathematics, physics, chemistry, and biology. This dataset can be
used to evaluate the MCSB ability of LLMs and smaller language models (LMs)
because it is typed in a strict LaTeX style. We focus on predicting the
character (A, B, C, or D) that is the most likely answer to a question, given
the context of the question. Our evaluation of six well-known LLMs, namely
BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, and GPT-4.0, on the
ViMMRC 1.0 and ViMMRC 2.0 benchmarks and our proposed dataset shows promising
results on the MCSB ability of LLMs for Vietnamese. The dataset is available
for research purposes only.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定でMCSB(Multiple choice symbol binding)を実行する能力を評価する。
ベトナム語に焦点を当てており、英語よりも難しいMCQAデータセットが少ない。
既存の2つのデータセット、ViMMRC 1.0とViMMRC 2.0は文学に焦点を当てている。
ベトナムの自然言語処理(NLP)の最近の研究は、ChatGPTを評価するために、2019年から2023年までベトナム国立高校卒業試験(VNHSGE)に焦点を当てている。
しかしこれらの研究は主に、ChatGPTがVNHSGEを段階的に解く方法に焦点を当てている。
我々は,数学,物理,化学,生物学のLaTeX式を入力するための構造化されたガイドラインを提供することで,新しい高品質なデータセットを作ることを目指している。
このデータセットは、厳密なLaTeXスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用できる。
質問の文脈を考えると、質問に対する最も可能性の高い答えである文字(A、B、C、またはD)を予測することに集中する。
ViMMRC 1.0 と ViMMRC 2.0 ベンチマークを用いて, BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, GPT-4.0 の6つの有名な LLM の評価を行った。
データセットは研究目的でのみ利用できる。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z) - VNHSGE: VietNamese High School Graduation Examination Dataset for Large
Language Models [0.0]
本稿では,大規模言語モデル(LLM)の評価専用に開発されたVNHSGEデータセットを紹介する。
このデータセットはベトナム国立高校卒業試験とそれに相当する9つの被験者を対象としている。
300の文学エッセイが含まれており、様々な話題について19,000以上の質問がある。
論文 参考訳(メタデータ) (2023-05-20T14:13:08Z) - A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education [2.5199066832791535]
ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
論文 参考訳(メタデータ) (2023-03-31T15:54:54Z) - VLSP 2021 Shared Task: Vietnamese Machine Reading Comprehension [2.348805691644086]
本稿では,共有タスクの組織化,共有タスク参加者の実施方法の概要,その結果について述べる。
ベトナム語に対する MRC タスクと質問応答システムを評価するためのベンチマークデータセット UIT-ViQuAD 2.0 を提供する。
UIT-ViQuAD 2.0データセットは、ベトナムの機械読解、質問応答、質問生成を研究するためのより多くの研究者を動機付けている。
論文 参考訳(メタデータ) (2022-03-22T00:44:41Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。