Fugu-MT 論文翻訳(概要): Malaysian English News Decoded: A Linguistic Resource for Named Entity and Relation Extraction

論文の概要: Malaysian English News Decoded: A Linguistic Resource for Named Entity and Relation Extraction

arxiv url: http://arxiv.org/abs/2402.14521v1
Date: Thu, 22 Feb 2024 13:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 15:15:10.169908
Title: Malaysian English News Decoded: A Linguistic Resource for Named Entity and Relation Extraction
Title（参考訳）: マレーシア英語ニュースデコード:名前付きエンティティと関係抽出のための言語資源
Authors: Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam
Abstract要約: 本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
参考スコア（独自算出の注目度）: 1.9927672677487354
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard English and Malaysian English exhibit notable differences, posing challenges for natural language processing (NLP) tasks on Malaysian English. Unfortunately, most of the existing datasets are mainly based on standard English and therefore inadequate for improving NLP tasks in Malaysian English. An experiment using state-of-the-art Named Entity Recognition (NER) solutions on Malaysian English news articles highlights that they cannot handle morphosyntactic variations in Malaysian English. To the best of our knowledge, there is no annotated dataset available to improvise the model. To address these issues, we constructed a Malaysian English News (MEN) dataset, which contains 200 news articles that are manually annotated with entities and relations. We then fine-tuned the spaCy NER tool and validated that having a dataset tailor-made for Malaysian English could improve the performance of NER in Malaysian English significantly. This paper presents our effort in the data acquisition, annotation methodology, and thorough analysis of the annotated dataset. To validate the quality of the annotation, inter-annotator agreement was used, followed by adjudication of disagreements by a subject matter expert. Upon completion of these tasks, we managed to develop a dataset with 6,061 entities and 3,268 relation instances. Finally, we discuss on spaCy fine-tuning setup and analysis on the NER performance. This unique dataset will contribute significantly to the advancement of NLP research in Malaysian English, allowing researchers to accelerate their progress, particularly in NER and relation extraction. The dataset and annotation guideline has been published on Github.
Abstract（参考訳）: 標準英語とマレーシア英語は顕著な違いを示し、マレーシア英語における自然言語処理(NLP)の課題を提起している。残念ながら、既存のデータセットの大部分は標準英語に基づいており、マレーシア英語のNLPタスクを改善するには不十分である。マレーシア英語ニュース記事のNER(State-of-the-the-art Named Entity Recognition)ソリューションを用いた実験では、マレーシア英語のモルフォシンタクティックなバリエーションを扱えないことが強調されている。私たちの知る限りでは、モデルを即興する注釈付きデータセットはありません。これらの問題に対処するために、我々はマレーシアの英語ニュース(men)データセットを構築しました。マレーシア英語のデータセットを作成すれば、マレーシア英語のNERの性能が大幅に向上する可能性があることを検証した。本稿では,データ取得,アノテーション手法,アノテーション付きデータセットの徹底的な解析における取り組みについて述べる。注記の質を検証するために、注記間合意が用いられ、続いて主題の専門家による意見の不一致の裁定が行われた。これらのタスクが完了すると、6,061のエンティティと3,268の関連インスタンスからなるデータセットの開発に成功しました。最後に,spacyの微調整設定とner性能の分析について考察する。このユニークなデータセットは、マレーシア英語におけるNLP研究の進歩に大きく貢献し、特にNERや関係抽出において、研究者の進歩を加速する。データセットとアノテーションガイドラインはgithubで公開されている。

関連論文リスト

SentiMaithili: A Benchmark Dataset for Sentiment and Reason Generation for the Low-Resource Maithili Language [0.9743193980153243]
マイティリ語(英語: Maithili)は、インド・アーリア語族に属する言語で、インドのプルバンチャル地方で1300万人以上の人々が話している。この研究は、Maithiliで説明可能な感情計算のための最初のベンチマークを確立する。
論文参考訳（メタデータ） (2025-10-25T04:58:18Z)
HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.73504952691398]
我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳（メタデータ） (2025-08-03T15:53:01Z)
Bridging the Gap: Transfer Learning from English PLMs to Malaysian English [1.8241632171540025]
マレーシア英語は低資源クレオール言語である。名前付きエンティティ認識モデルは、マレーシア英語のテキストからエンティティをキャプチャするときに性能が低下する。 MENmBERT と MENBERT は,文脈理解を伴う事前学習型言語モデルである。
論文参考訳（メタデータ） (2024-07-01T15:26:03Z)
Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。 GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文参考訳（メタデータ） (2024-05-27T08:08:51Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
The Effect of Normalization for Bi-directional Amharic-English Neural Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文参考訳（メタデータ） (2022-10-27T07:18:53Z)
IndoNLI: A Natural Language Inference Dataset for Indonesian [4.707529518839985]
IndoNLIはインドネシア初の人為的NLIデータセットである。群衆労働者と専門家が注釈を付けた18K近い文対を収集する。
論文参考訳（メタデータ） (2021-10-27T16:37:13Z)
An Open-Source Dataset and A Multi-Task Model for Malay Named Entity Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。 NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文参考訳（メタデータ） (2021-09-03T03:29:25Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文参考訳（メタデータ） (2020-10-13T14:49:10Z)
GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。 GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文参考訳（メタデータ） (2020-10-06T20:30:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。