論文の概要: An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension
- arxiv url: http://arxiv.org/abs/2008.08810v4
- Date: Thu, 18 Feb 2021 08:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:33:34.428802
- Title: An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension
- Title(参考訳): ベトナム語多言語読解のための深層ニューラルネットワークモデルの実験的検討
- Authors: Son T. Luu, Kiet Van Nguyen, Anh Gia-Tuan Nguyen and Ngan Luu-Thuy
Nguyen
- Abstract要約: 我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine reading comprehension (MRC) is a challenging task in natural language
processing that makes computers understanding natural language texts and answer
questions based on those texts. There are many techniques for solving this
problems, and word representation is a very important technique that impact
most to the accuracy of machine reading comprehension problem in the popular
languages like English and Chinese. However, few studies on MRC have been
conducted in low-resource languages such as Vietnamese. In this paper, we
conduct several experiments on neural network-based model to understand the
impact of word representation to the Vietnamese multiple-choice machine reading
comprehension. Our experiments include using the Co-match model on six
different Vietnamese word embeddings and the BERT model for multiple-choice
reading comprehension. On the ViMMRC corpus, the accuracy of BERT model is
61.28% on test set.
- Abstract(参考訳): 機械読解(MRC)は自然言語処理における課題であり、コンピュータが自然言語のテキストを理解し、それらのテキストに基づいて質問に答える。
この問題を解決するための技法は数多く存在し、英語や中国語のような一般的な言語における機械読解の正確さに最も影響を与える重要な技術である。
しかし、ベトナム語のような低リソース言語でMRCの研究はほとんど行われていない。
本稿では,ベトナムのマルチチョイス機械読解に対する単語表現の影響を理解するために,ニューラルネットワークモデルに関する実験を行った。
実験では,6種類のベトナム語の単語埋め込みにおけるコマッチモデルと,多音読解のためのbertモデルを用いた。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
関連論文リスト
- VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education [2.5199066832791535]
ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
論文 参考訳(メタデータ) (2023-03-31T15:54:54Z) - Revealing Weaknesses of Vietnamese Language Models Through Unanswerable
Questions in Machine Reading Comprehension [2.7528170226206443]
本稿では,現在のベトナム語モノリンガルモデルの言語弱さと強みを包括的に分析する。
またベトナムのMachine Readingベンチマークにおけるアーティファクトの存在を明らかにした。
提案した修正は,解決不可能な質問の品質向上に役立つ。
論文 参考訳(メタデータ) (2023-03-16T20:32:58Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Conversational Machine Reading Comprehension for Vietnamese Healthcare
Texts [0.2446672595462589]
対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。
UIT-ViCoQAは1万の質問と2000以上の健康ニュース記事に関する回答からなる。
最良のモデルは45.27%のf1スコアを得るが、これは人間のパフォーマンスより30.91ポイント遅れている(76.18%)。
論文 参考訳(メタデータ) (2021-05-04T14:50:39Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。