論文の概要: Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction
- arxiv url: http://arxiv.org/abs/2402.14521v1
- Date: Thu, 22 Feb 2024 13:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:15:10.169908
- Title: Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction
- Title(参考訳): マレーシア英語ニュースデコード:名前付きエンティティと関係抽出のための言語資源
- Authors: Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam
- Abstract要約: 本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。
我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
- 参考スコア(独自算出の注目度): 1.9927672677487354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard English and Malaysian English exhibit notable differences, posing
challenges for natural language processing (NLP) tasks on Malaysian English.
Unfortunately, most of the existing datasets are mainly based on standard
English and therefore inadequate for improving NLP tasks in Malaysian English.
An experiment using state-of-the-art Named Entity Recognition (NER) solutions
on Malaysian English news articles highlights that they cannot handle
morphosyntactic variations in Malaysian English. To the best of our knowledge,
there is no annotated dataset available to improvise the model. To address
these issues, we constructed a Malaysian English News (MEN) dataset, which
contains 200 news articles that are manually annotated with entities and
relations. We then fine-tuned the spaCy NER tool and validated that having a
dataset tailor-made for Malaysian English could improve the performance of NER
in Malaysian English significantly. This paper presents our effort in the data
acquisition, annotation methodology, and thorough analysis of the annotated
dataset. To validate the quality of the annotation, inter-annotator agreement
was used, followed by adjudication of disagreements by a subject matter expert.
Upon completion of these tasks, we managed to develop a dataset with 6,061
entities and 3,268 relation instances. Finally, we discuss on spaCy fine-tuning
setup and analysis on the NER performance. This unique dataset will contribute
significantly to the advancement of NLP research in Malaysian English, allowing
researchers to accelerate their progress, particularly in NER and relation
extraction. The dataset and annotation guideline has been published on Github.
- Abstract(参考訳): 標準英語とマレーシア英語は顕著な違いを示し、マレーシア英語における自然言語処理(NLP)の課題を提起している。
残念ながら、既存のデータセットの大部分は標準英語に基づいており、マレーシア英語のNLPタスクを改善するには不十分である。
マレーシア英語ニュース記事のNER(State-of-the-the-art Named Entity Recognition)ソリューションを用いた実験では、マレーシア英語のモルフォシンタクティックなバリエーションを扱えないことが強調されている。
私たちの知る限りでは、モデルを即興する注釈付きデータセットはありません。
これらの問題に対処するために、我々はマレーシアの英語ニュース(men)データセットを構築しました。
マレーシア英語のデータセットを作成すれば、マレーシア英語のNERの性能が大幅に向上する可能性があることを検証した。
本稿では,データ取得,アノテーション手法,アノテーション付きデータセットの徹底的な解析における取り組みについて述べる。
注記の質を検証するために、注記間合意が用いられ、続いて主題の専門家による意見の不一致の裁定が行われた。
これらのタスクが完了すると、6,061のエンティティと3,268の関連インスタンスからなるデータセットの開発に成功しました。
最後に,spacyの微調整設定とner性能の分析について考察する。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進歩に大きく貢献し、特にNERや関係抽出において、研究者の進歩を加速する。
データセットとアノテーションガイドラインはgithubで公開されている。
関連論文リスト
- Bridging the Gap: Transfer Learning from English PLMs to Malaysian English [1.8241632171540025]
マレーシア英語は低資源クレオール言語である。
名前付きエンティティ認識モデルは、マレーシア英語のテキストからエンティティをキャプチャするときに性能が低下する。
MENmBERT と MENBERT は,文脈理解を伴う事前学習型言語モデルである。
論文 参考訳(メタデータ) (2024-07-01T15:26:03Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - IndoNLI: A Natural Language Inference Dataset for Indonesian [4.707529518839985]
IndoNLIはインドネシア初の人為的NLIデータセットである。
群衆労働者と専門家が注釈を付けた18K近い文対を収集する。
論文 参考訳(メタデータ) (2021-10-27T16:37:13Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。