論文の概要: MphayaNER: Named Entity Recognition for Tshivenda
- arxiv url: http://arxiv.org/abs/2304.03952v1
- Date: Sat, 8 Apr 2023 08:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:43:17.358069
- Title: MphayaNER: Named Entity Recognition for Tshivenda
- Title(参考訳): MphayaNER:Tshivendaのエンティティ認識の名称
- Authors: Rendani Mbuvha, David I. Adelani, Tendani Mutavhatsindi, Tshimangadzo
Rakhuhu, Aluwani Mauda, Tshifhiwa Joshua Maumela, Andisani Masindi, Seani
Rananga, Vukosi Marivate, and Tshilidzi Marwala
- Abstract要約: 本稿では,ニュース分野における最初のTshivenda NERコーパスであるMphayaNERを紹介する。
我々は,MphayaNER上でのテクスト微細調整によるNERベースラインを確立する。
また、Tshivendaと関連するBantu言語間のゼロショット転送についても検討し、chishonaとKiswahiliが最良の結果を示している。
- 参考スコア(独自算出の注目度): 2.731098538540729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named Entity Recognition (NER) plays a vital role in various Natural Language
Processing tasks such as information retrieval, text classification, and
question answering. However, NER can be challenging, especially in low-resource
languages with limited annotated datasets and tools. This paper adds to the
effort of addressing these challenges by introducing MphayaNER, the first
Tshivenda NER corpus in the news domain. We establish NER baselines by
\textit{fine-tuning} state-of-the-art models on MphayaNER. The study also
explores zero-shot transfer between Tshivenda and other related Bantu
languages, with chiShona and Kiswahili showing the best results. Augmenting
MphayaNER with chiShona data was also found to improve model performance
significantly. Both MphayaNER and the baseline models are made publicly
available.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、情報検索、テキスト分類、質問応答などの自然言語処理タスクにおいて重要な役割を果たす。
しかし、特に注釈付きデータセットとツールに制限がある低リソース言語では、NERは難しい可能性がある。
本稿では,ニュース分野における最初のTshivenda NERコーパスであるMphayaNERを導入することで,これらの課題に対処する取り組みをさらに進める。
MphayaNER 上での textit{fine-tuning} state-of-the-art モデルにより NER ベースラインを確立する。
また、Tshivendaと関連するBantu言語間のゼロショット転送についても検討し、chishonaとKiswahiliが最良の結果を示している。
キショナデータによるMphayaNERの増強もモデル性能を著しく向上させることがわかった。
MphayaNERとベースラインモデルの両方が公開されている。
関連論文リスト
- Long Range Named Entity Recognition for Marathi Documents [0.3958317527488535]
本稿では,Marathi 文書用に設計されている現在の NER 技術について包括的に分析する。
BERTトランスフォーマーモデルによる長距離マラソンNERの可能性を調査し、現在のプラクティスを掘り下げる。
本稿は,NERがNLPにおいて重要な役割を担っていることを認めつつ,マラティの特定の言語的特徴と文脈的微妙さによって引き起こされる困難について論じる。
論文 参考訳(メタデータ) (2024-10-11T18:48:20Z) - On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文 参考訳(メタデータ) (2023-12-03T06:53:53Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Development of a Dataset and a Deep Learning Baseline Named Entity
Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi [0.983719084224035]
Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。
本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-14T14:07:50Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。