論文の概要: Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension
- arxiv url: http://arxiv.org/abs/2001.05687v5
- Date: Sun, 1 Nov 2020 16:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:12:24.980774
- Title: Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension
- Title(参考訳): ベトナムの多重選択機械読解における外部知識を用いた語彙的アプローチの強化
- Authors: Kiet Van Nguyen, Khiem Vinh Tran, Son T. Luu, Anh Gia-Tuan Nguyen,
Ngan Luu-Thuy Nguyen
- Abstract要約: 我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
- 参考スコア(独自算出の注目度): 2.5199066832791535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Vietnamese is the 17th most popular native-speaker language in the
world, there are not many research studies on Vietnamese machine reading
comprehension (MRC), the task of understanding a text and answering questions
about it. One of the reasons is because of the lack of high-quality benchmark
datasets for this task. In this work, we construct a dataset which consists of
2,783 pairs of multiple-choice questions and answers based on 417 Vietnamese
texts which are commonly used for teaching reading comprehension for elementary
school pupils. In addition, we propose a lexical-based MRC method that utilizes
semantic similarity measures and external knowledge sources to analyze
questions and extract answers from the given text. We compare the performance
of the proposed model with several baseline lexical-based and neural
network-based models. Our proposed method achieves 61.81% by accuracy, which is
5.51% higher than the best baseline model. We also measure human performance on
our dataset and find that there is a big gap between machine-model and human
performances. This indicates that significant progress can be made on this
task. The dataset is freely available on our website for research purposes.
- Abstract(参考訳): ベトナム語は世界で17番目に人気のある母語話者言語であるが、ベトナム語機械読解(mrc)についての研究は少ない。
その理由の1つは、このタスクに高品質のベンチマークデータセットが欠如しているためである。
本研究では,小学生の読書理解指導によく用いられるベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
さらに、意味的類似度尺度と外部知識源を用いて質問を分析し、与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案モデルの性能を,複数のベースライン語彙ベースおよびニューラルネットワークベースモデルと比較する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
また、データセット上で人間のパフォーマンスを測定し、マシンモデルと人間のパフォーマンスの間に大きなギャップがあることを見つけます。
これは、このタスクにおいて大きな進歩が達成できることを示している。
このデータセットは、我々のウェブサイトで研究目的で無料で利用可能です。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education [2.5199066832791535]
ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
論文 参考訳(メタデータ) (2023-03-31T15:54:54Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension [2.7528170226206443]
我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
論文 参考訳(メタデータ) (2020-08-20T07:29:14Z) - New Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles [2.5199066832791535]
本稿では、ベトナム語のための新しいコーパスとしてViNewsQAを紹介し、医療読解モデルの評価を行う。
コーパスは、人為的な問合せ対22,057からなる。
実験の結果,ALBERTは65.26%,F1スコア84.89%の精度で一致した。
論文 参考訳(メタデータ) (2020-06-19T13:49:26Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。