論文の概要: A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education
- arxiv url: http://arxiv.org/abs/2303.18162v1
- Date: Fri, 31 Mar 2023 15:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:29:08.579560
- Title: A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education
- Title(参考訳): ベトナム語教育のための理解コーパスを読む複数の選択
- Authors: Son T. Luu, Khoi Trong Hoang, Tuong Quang Pham, Kiet Van Nguyen, Ngan
Luu-Thuy Nguyen
- Abstract要約: ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
- 参考スコア(独自算出の注目度): 2.5199066832791535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine reading comprehension has been an interesting and challenging task in
recent years, with the purpose of extracting useful information from texts. To
attain the computer ability to understand the reading text and answer relevant
information, we introduce ViMMRC 2.0 - an extension of the previous ViMMRC for
the task of multiple-choice reading comprehension in Vietnamese Textbooks which
contain the reading articles for students from Grade 1 to Grade 12. This
dataset has 699 reading passages which are prose and poems, and 5,273
questions. The questions in the new dataset are not fixed with four options as
in the previous version. Moreover, the difficulty of questions is increased,
which challenges the models to find the correct choice. The computer must
understand the whole context of the reading passage, the question, and the
content of each choice to extract the right answers. Hence, we propose the
multi-stage approach that combines the multi-step attention network (MAN) with
the natural language inference (NLI) task to enhance the performance of the
reading comprehension model. Then, we compare the proposed methodology with the
baseline BERTology models on the new dataset and the ViMMRC 1.0. Our
multi-stage models achieved 58.81% by Accuracy on the test set, which is 5.34%
better than the highest BERTology models. From the results of the error
analysis, we found the challenge of the reading comprehension models is
understanding the implicit context in texts and linking them together in order
to find the correct answers. Finally, we hope our new dataset will motivate
further research in enhancing the language understanding ability of computers
in the Vietnamese language.
- Abstract(参考訳): 近年,テキストから有用な情報を抽出することを目的として,機械読解は興味深い課題となっている。
ベトナムの教科書において、読み書きの理解と関連情報への回答をコンピュータで行うために、第1学年から第12学年までの学生向けの読解記事を含む複数選択読解作業のためのViMMRC 2.0を導入する。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
新しいデータセットの質問は、以前のバージョンのように4つのオプションで修正されていない。
さらに、質問の難しさが増し、モデルに正しい選択肢を見つけるよう挑戦する。
コンピュータは、正しい回答を抽出するために、読み出し路のコンテキスト全体、質問、および各選択の内容を理解する必要がある。
そこで本研究では,マルチステップアテンションネットワーク(MAN)と自然言語推論(NLI)タスクを組み合わせた多段階アプローチを提案する。
次に,提案手法と新たなデータセットと ViMMRC 1.0 のベースラインBERTology モデルを比較した。
我々の多段モデルは、テストセットの精度で58.81%に達し、最高のバートロジーモデルよりも5.34%優れている。
誤り解析の結果から,テキスト中の暗黙の文脈を理解し,それらをリンクして正しい回答を見つけることが,読解理解モデルの課題であることがわかった。
最後に、我々の新しいデータセットはベトナム語におけるコンピュータの言語理解能力を高めるためのさらなる研究の動機になることを期待します。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Evaluating the Symbol Binding Ability of Large Language Models for
Multiple-Choice Questions in Vietnamese General Education [0.16317061277457]
我々は,複数選択質問応答(MCQA)タスクに対して,ゼロショット,ワンショット,少数ショット設定で複数選択シンボルバインディング(MCSB)を実行する大規模言語モデル(LLM)の能力を評価する。
このデータセットは、厳密なスタイルでタイプされているため、LSMと小言語モデル(LM)のMCSB能力を評価するために使用することができる。
論文 参考訳(メタデータ) (2023-10-18T15:48:07Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - Conversational Machine Reading Comprehension for Vietnamese Healthcare
Texts [0.2446672595462589]
対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。
UIT-ViCoQAは1万の質問と2000以上の健康ニュース記事に関する回答からなる。
最良のモデルは45.27%のf1スコアを得るが、これは人間のパフォーマンスより30.91ポイント遅れている(76.18%)。
論文 参考訳(メタデータ) (2021-05-04T14:50:39Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension [2.7528170226206443]
我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
論文 参考訳(メタデータ) (2020-08-20T07:29:14Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。