論文の概要: COVID-19 Named Entity Recognition for Vietnamese
- arxiv url: http://arxiv.org/abs/2104.03879v1
- Date: Thu, 8 Apr 2021 16:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:10:51.403469
- Title: COVID-19 Named Entity Recognition for Vietnamese
- Title(参考訳): ベトナムで「実体認識」 新型コロナ
- Authors: Thinh Hung Truong, Mai Hoang Dao, Dat Quoc Nguyen
- Abstract要約: ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
- 参考スコア(独自算出の注目度): 6.17059264011429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current COVID-19 pandemic has lead to the creation of many corpora that
facilitate NLP research and downstream applications to help fight the pandemic.
However, most of these corpora are exclusively for English. As the pandemic is
a global problem, it is worth creating COVID-19 related datasets for languages
other than English. In this paper, we present the first manually-annotated
COVID-19 domain-specific dataset for Vietnamese. Particularly, our dataset is
annotated for the named entity recognition (NER) task with newly-defined entity
types that can be used in other future epidemics. Our dataset also contains the
largest number of entities compared to existing Vietnamese NER datasets. We
empirically conduct experiments using strong baselines on our dataset, and find
that: automatic Vietnamese word segmentation helps improve the NER results and
the highest performances are obtained by fine-tuning pre-trained language
models where the monolingual model PhoBERT for Vietnamese (Nguyen and Nguyen,
2020) produces higher results than the multilingual model XLM-R (Conneau et
al., 2020). We publicly release our dataset at:
https://github.com/VinAIResearch/PhoNER_COVID19
- Abstract(参考訳): 現在の新型コロナウイルス(COVID-19)パンデミックは、パンデミックに対抗するためにNLP研究や下流のアプリケーションを促進する多くのコーパスを生み出している。
しかし、これらのコーパスのほとんどは英語専用である。
パンデミックは世界的な問題なので、英語以外の言語でcovid-19関連のデータセットを作成する価値がある。
本稿では,ベトナムにおける最初の手動注釈付きドメイン固有データセットを提案する。
特に、我々のデータセットは名前付きエンティティ認識(NER)タスクにアノテートされ、新たに定義されたエンティティタイプは、他の将来の流行で使用できます。
我々のデータセットには、既存のベトナムのNERデータセットと比較して最も多くのエンティティが含まれています。
ベトナム語の単語セグメンテーションはnerの結果を改善するのに役立ち、ベトナム語用単言語モデルphobert (nguyen and nguyen, 2020) が多言語モデルxlm-r (conneau et al., 2020) よりも高い結果を生み出す、事前学習された言語モデルによって最高のパフォーマンスを得ることができます。
私たちはデータセットをhttps://github.com/VinAIResearch/PhoNER_COVID19で公開しています。
関連論文リスト
- Medical Spoken Named Entity Recognition [18.348129901298652]
医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。
様々な最先端の事前学習モデルを用いてベースライン結果を示す。
単に翻訳することで、文字はベトナム語だけでなく他の言語にも適用できる。
論文 参考訳(メタデータ) (2024-06-19T08:39:09Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - Improving Vietnamese-English Medical Machine Translation [14.172448099399407]
MedEVは、医療領域向けに構築された高品質のベトナム語と英語の並列データセットで、約360Kの文対で構成されている。
我々は、Google Translate、ChatGPT(gpt-3.5-turbo)、最先端のベトナム語-英語ニューラルマシン翻訳モデル、および新しいMedEVデータセット上で事前訓練されたバイリンガル/マルチリンガルシーケンス・ツー・シーケンスモデルの比較実験を行った。
実験結果から, 翻訳方向ごとに「ビナイ翻訳」を微調整することで, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-28T06:07:15Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - TICO-19: the Translation Initiative for Covid-19 [112.5601530395345]
COvid-19の翻訳イニシアチブ(TICO-19)は、テストおよび開発データを、35の異なる言語でAIおよびMT研究者に提供した。
同じデータが表現されているすべての言語に変換されるため、テストや開発は、セット内の任意の言語のペアリングに対して行うことができる。
論文 参考訳(メタデータ) (2020-07-03T16:26:17Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。