論文の概要: New Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles
- arxiv url: http://arxiv.org/abs/2006.11138v2
- Date: Thu, 11 Feb 2021 12:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:52:17.931692
- Title: New Vietnamese Corpus for Machine Reading Comprehension of Health News
Articles
- Title(参考訳): 健康ニュース記事の機械読解のための新しいベトナム語コーパス
- Authors: Kiet Van Nguyen, Tin Van Huynh, Duc-Vu Nguyen, Anh Gia-Tuan Nguyen,
Ngan Luu-Thuy Nguyen
- Abstract要約: 本稿では、ベトナム語のための新しいコーパスとしてViNewsQAを紹介し、医療読解モデルの評価を行う。
コーパスは、人為的な問合せ対22,057からなる。
実験の結果,ALBERTは65.26%,F1スコア84.89%の精度で一致した。
- 参考スコア(独自算出の注目度): 2.5199066832791535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale and high-quality corpora are necessary for evaluating machine
reading comprehension models on a low-resource language like Vietnamese.
Besides, machine reading comprehension (MRC) for the health domain offers great
potential for practical applications; however, there is still very little MRC
research in this domain. This paper presents ViNewsQA as a new corpus for the
Vietnamese language to evaluate healthcare reading comprehension models. The
corpus comprises 22,057 human-generated question-answer pairs. Crowd-workers
create the questions and their answers based on a collection of over 4,416
online Vietnamese healthcare news articles, where the answers comprise spans
extracted from the corresponding articles. In particular, we develop a process
of creating a corpus for the Vietnamese machine reading comprehension.
Comprehensive evaluations demonstrate that our corpus requires abilities beyond
simple reasoning, such as word matching and demanding difficult reasoning based
on single-or-multiple-sentence information. We conduct experiments using
different types of machine reading comprehension methods to achieve the first
baseline performances, compared with further models' performances. We also
measure human performance on the corpus and compared it with several powerful
neural network-based and transfer learning-based models. Our experiments show
that the best machine model is ALBERT, which achieves an exact match score of
65.26% and an F1-score of 84.89% on our corpus. The significant differences
between humans and the best-performance model (14.53% of EM and 10.90% of
F1-score) on the test set of our corpus indicate that improvements in ViNewsQA
could be explored in the future study. Our corpus is publicly available on our
website for the research purpose to encourage the research community to make
these improvements.
- Abstract(参考訳): ベトナム語のような低リソース言語で機械読解モデルを評価するためには,大規模で高品質なコーパスが必要である。
さらに、医療分野の機械読影理解(MRC)は、実際的な応用には大きな可能性を秘めているが、この領域でのMRC研究はほとんどない。
本稿では,ベトナム語の読解モデルを評価する新しいコーパスとして,vinewsqaを提案する。
コーパスは22,057個の人間生成質問応答対からなる。
群衆労働者は、回答が対応する記事から抽出される4,416件以上のベトナムの医療ニュース記事のコレクションに基づいて、質問と回答を作成する。
特にベトナム語機械読解のためのコーパスを作成するプロセスを開発する。
包括的評価は、単語マッチングや難解推論といった単純な推論以上の能力を必要とすることを示す。
各種の機械読解法を用いて実験を行い、モデルの性能と比較して、最初のベースライン性能を実現する。
また、コーパス上での人間のパフォーマンスを測定し、強力なニューラルネットワークベースおよびトランスファー学習ベースモデルと比較する。
私たちの実験では、最高のマシンモデルはalbertで、65.26%の正確な一致スコアと84.89%のf1スコアを達成しています。
我々のコーパスのテストセットにおけるヒトとベストパフォーマンスモデル(EMの14.53%、F1スコアの10.90%)の有意差は、今後の研究でViNewsQAの改善が期待できることを示している。
我々のコーパスは、これらの改善を研究コミュニティに奨励する研究目的のために、我々のウェブサイトで公開されています。
関連論文リスト
- VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - KINLP at SemEval-2023 Task 12: Kinyarwanda Tweet Sentiment Analysis [1.2183405753834562]
本稿では,SemEval-2023 Task 12: Sentiment Analysis for African Languageについて述べる。
システムはKinyarwanda言語に焦点を当て、言語固有のモデルを使用する。
論文 参考訳(メタデータ) (2023-04-25T04:30:03Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Conversational Machine Reading Comprehension for Vietnamese Healthcare
Texts [0.2446672595462589]
対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。
UIT-ViCoQAは1万の質問と2000以上の健康ニュース記事に関する回答からなる。
最良のモデルは45.27%のf1スコアを得るが、これは人間のパフォーマンスより30.91ポイント遅れている(76.18%)。
論文 参考訳(メタデータ) (2021-05-04T14:50:39Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension [2.7528170226206443]
我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
論文 参考訳(メタデータ) (2020-08-20T07:29:14Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。