論文の概要: Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction
- arxiv url: http://arxiv.org/abs/2402.14521v1
- Date: Thu, 22 Feb 2024 13:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:15:10.169908
- Title: Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction
- Title(参考訳): マレーシア英語ニュースデコード:名前付きエンティティと関係抽出のための言語資源
- Authors: Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam
- Abstract要約: 本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。
我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
- 参考スコア(独自算出の注目度): 1.9927672677487354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard English and Malaysian English exhibit notable differences, posing
challenges for natural language processing (NLP) tasks on Malaysian English.
Unfortunately, most of the existing datasets are mainly based on standard
English and therefore inadequate for improving NLP tasks in Malaysian English.
An experiment using state-of-the-art Named Entity Recognition (NER) solutions
on Malaysian English news articles highlights that they cannot handle
morphosyntactic variations in Malaysian English. To the best of our knowledge,
there is no annotated dataset available to improvise the model. To address
these issues, we constructed a Malaysian English News (MEN) dataset, which
contains 200 news articles that are manually annotated with entities and
relations. We then fine-tuned the spaCy NER tool and validated that having a
dataset tailor-made for Malaysian English could improve the performance of NER
in Malaysian English significantly. This paper presents our effort in the data
acquisition, annotation methodology, and thorough analysis of the annotated
dataset. To validate the quality of the annotation, inter-annotator agreement
was used, followed by adjudication of disagreements by a subject matter expert.
Upon completion of these tasks, we managed to develop a dataset with 6,061
entities and 3,268 relation instances. Finally, we discuss on spaCy fine-tuning
setup and analysis on the NER performance. This unique dataset will contribute
significantly to the advancement of NLP research in Malaysian English, allowing
researchers to accelerate their progress, particularly in NER and relation
extraction. The dataset and annotation guideline has been published on Github.
- Abstract(参考訳): 標準英語とマレーシア英語は顕著な違いを示し、マレーシア英語における自然言語処理(NLP)の課題を提起している。
残念ながら、既存のデータセットの大部分は標準英語に基づいており、マレーシア英語のNLPタスクを改善するには不十分である。
マレーシア英語ニュース記事のNER(State-of-the-the-art Named Entity Recognition)ソリューションを用いた実験では、マレーシア英語のモルフォシンタクティックなバリエーションを扱えないことが強調されている。
私たちの知る限りでは、モデルを即興する注釈付きデータセットはありません。
これらの問題に対処するために、我々はマレーシアの英語ニュース(men)データセットを構築しました。
マレーシア英語のデータセットを作成すれば、マレーシア英語のNERの性能が大幅に向上する可能性があることを検証した。
本稿では,データ取得,アノテーション手法,アノテーション付きデータセットの徹底的な解析における取り組みについて述べる。
注記の質を検証するために、注記間合意が用いられ、続いて主題の専門家による意見の不一致の裁定が行われた。
これらのタスクが完了すると、6,061のエンティティと3,268の関連インスタンスからなるデータセットの開発に成功しました。
最後に,spacyの微調整設定とner性能の分析について考察する。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進歩に大きく貢献し、特にNERや関係抽出において、研究者の進歩を加速する。
データセットとアノテーションガイドラインはgithubで公開されている。
関連論文リスト
- Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [57.600941792026006]
高品質な中国語命令チューニングデータセットであるCOIG-CQIAを紹介する。
我々の目標は、モデル行動と人間の相互作用をよりよく整合させる、多種多様な命令チューニングデータセットを構築することである。
我々はCQIAの様々なサブセットで様々なスケールのモデルを訓練し、詳細な評価と分析を行った。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Bridging the Domain Gap for Stance Detection for the Zulu language [6.509758931804479]
文献で誤情報と戦うための既存のAIベースのアプローチは、自動姿勢検出を成功への不可欠な第一歩として示唆している。
そこで本研究では,ドメイン間のギャップを減らすために,ドメイン適応の手法を利用するブラックボックス非侵入手法を提案する。
これにより、英語で見られるように、この研究のターゲット言語であるズールー語に対するスタンス検出において、同様の結果を迅速に得ることができる。
論文 参考訳(メタデータ) (2022-05-06T11:44:35Z) - IndoNLI: A Natural Language Inference Dataset for Indonesian [4.707529518839985]
IndoNLIはインドネシア初の人為的NLIデータセットである。
群衆労働者と専門家が注釈を付けた18K近い文対を収集する。
論文 参考訳(メタデータ) (2021-10-27T16:37:13Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。