論文の概要: A Vietnamese Dataset for Text Segmentation and Multiple Choices Reading Comprehension
- arxiv url: http://arxiv.org/abs/2506.15978v1
- Date: Thu, 19 Jun 2025 02:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.918364
- Title: A Vietnamese Dataset for Text Segmentation and Multiple Choices Reading Comprehension
- Title(参考訳): ベトナムのテキストセグメンテーション用データセットと複数選択の理解
- Authors: Toan Nguyen Hai, Ha Nguyen Viet, Truong Quan Xuan, Duc Do Minh,
- Abstract要約: ベトナム語は1億2200万人以上の母語話者を持つ20番目の言語である。
データセットにはテキストセグメンテーションのための15,942の文書と16,347の合成多重選択質問応答ペアが含まれている。
実験の結果、mBERT は両タスクにおける単言語モデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vietnamese, the 20th most spoken language with over 102 million native speakers, lacks robust resources for key natural language processing tasks such as text segmentation and machine reading comprehension (MRC). To address this gap, we present VSMRC, the Vietnamese Text Segmentation and Multiple-Choice Reading Comprehension Dataset. Sourced from Vietnamese Wikipedia, our dataset includes 15,942 documents for text segmentation and 16,347 synthetic multiple-choice question-answer pairs generated with human quality assurance, ensuring a reliable and diverse resource. Experiments show that mBERT consistently outperforms monolingual models on both tasks, achieving an accuracy of 88.01% on MRC test set and an F1 score of 63.15\% on text segmentation test set. Our analysis reveals that multilingual models excel in NLP tasks for Vietnamese, suggesting potential applications to other under-resourced languages. VSMRC is available at HuggingFace
- Abstract(参考訳): ベトナム語は1億2200万人以上のネイティブスピーカーを持つ20番目の言語であり、テキストセグメンテーションや機械読解(MRC)といった重要な自然言語処理タスクのための堅牢なリソースを欠いている。
このギャップに対処するために、VSMRC、ベトナム語テキストセグメンテーション、複数字読解包括データセットを提案する。
ベトナム語ウィキペディアによると、我々のデータセットには、テキストセグメンテーションのための15,942の文書と、人間の品質保証によって生成される16,347の合成多重選択質問応答ペアが含まれており、信頼性と多様なリソースが確保されている。
実験の結果、mBERTは両タスクの単言語モデルより一貫して優れており、MRCテストセットでは88.01%、テキストセグメンテーションテストセットではF1スコアが63.15\%である。
ベトナム語に対するNLPタスクでは多言語モデルが優れており、他のアンダーリソース言語への潜在的な応用が示唆されている。
VSMRCがHuggingFaceで利用可能に
関連論文リスト
- VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - An Experimental Study of Deep Neural Network Models for Vietnamese
Multiple-Choice Reading Comprehension [2.7528170226206443]
我々は、単語表現が機械読解に与える影響を理解するために、ニューラルネットワークに基づくモデルの実験を行う。
ベトナム語の単語埋め込みにおけるコマッチモデルと,複数字読解のためのBERTモデルについて検討した。
ViMMRCコーパスでは、BERTモデルの精度はテストセットで61.28%である。
論文 参考訳(メタデータ) (2020-08-20T07:29:14Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。