論文の概要: A Multi-way Parallel Named Entity Annotated Corpus for English, Tamil and Sinhala
- arxiv url: http://arxiv.org/abs/2412.02056v2
- Date: Tue, 14 Jan 2025 21:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:50:30.603232
- Title: A Multi-way Parallel Named Entity Annotated Corpus for English, Tamil and Sinhala
- Title(参考訳): 英語・タミル語・シンハラ語用マルチウェイ並列エンティティアノテーションコーパス
- Authors: Surangika Ranathunga, Asanka Ranasinghea, Janaka Shamala, Ayodya Dandeniyaa, Rashmi Galappaththia, Malithi Samaraweeraa,
- Abstract要約: 本報告では, 名前付きエンティティ (NE) を付加した英語-タミル・シンハラコーパスについて述べる。
事前訓練された多言語言語モデル(mLM)を用いて、シンハラとタミルのデータセット上で、新しいベンチマークNER(Named Entity Recognition)結果を確立する。
- 参考スコア(独自算出の注目度): 0.8675380166590487
- License:
- Abstract: This paper presents a multi-way parallel English-Tamil-Sinhala corpus annotated with Named Entities (NEs), where Sinhala and Tamil are low-resource languages. Using pre-trained multilingual Language Models (mLMs), we establish new benchmark Named Entity Recognition (NER) results on this dataset for Sinhala and Tamil. We also carry out a detailed investigation on the NER capabilities of different types of mLMs. Finally, we demonstrate the utility of our NER system on a low-resource Neural Machine Translation (NMT) task. Our dataset is publicly released: https://github.com/suralk/multiNER.
- Abstract(参考訳): 本稿では,低リソース言語であるNond Entities (NE) を付加した多方向並列型英語-タミル・シンハラコーパスを提案する。
事前訓練された多言語言語モデル(mLM)を用いて、シンハラとタミルのデータセット上で、新しいベンチマークNER(Named Entity Recognition)結果を確立する。
また,異なる種類のmLMのNER機能についても詳細に検討した。
最後に、低リソースニューラルネットワーク変換(NMT)タスクにおけるNERシステムの実用性を実証する。
私たちのデータセットは、 https://github.com/suralk/multiNER.orgで公開されている。
関連論文リスト
- "I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。
しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。
そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T07:43:18Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - MANER: Mask Augmented Named Entity Recognition for Extreme Low-Resource
Languages [27.812329651072343]
低リソース言語に対する Mask Augmented Named Entity Recognition (MANER) を提案する。
具体的には、名前付きエンティティタグを予測したい文中のすべての単語にマスク>トークンをプリペイドする。
実験によると、100のトレーニング例が少ない100の言語では、最先端のメソッドを最大48%改善し、F1スコアで平均12%改善している。
論文 参考訳(メタデータ) (2022-12-19T18:49:50Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models [0.7874708385247353]
我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-04-12T18:32:15Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。