論文の概要: Bridging the Gap: Transfer Learning from English PLMs to Malaysian English
- arxiv url: http://arxiv.org/abs/2407.01374v1
- Date: Mon, 1 Jul 2024 15:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:00:48.354917
- Title: Bridging the Gap: Transfer Learning from English PLMs to Malaysian English
- Title(参考訳): Bridging the Gap: 英語PLMからマレーシア英語への移行学習
- Authors: Mohan Raj Chanthran, Lay-Ki Soon, Huey Fang Ong, Bhawani Selvaretnam,
- Abstract要約: マレーシア英語は低資源クレオール言語である。
名前付きエンティティ認識モデルは、マレーシア英語のテキストからエンティティをキャプチャするときに性能が低下する。
MENmBERT と MENBERT は,文脈理解を伴う事前学習型言語モデルである。
- 参考スコア(独自算出の注目度): 1.8241632171540025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malaysian English is a low resource creole language, where it carries the elements of Malay, Chinese, and Tamil languages, in addition to Standard English. Named Entity Recognition (NER) models underperform when capturing entities from Malaysian English text due to its distinctive morphosyntactic adaptations, semantic features and code-switching (mixing English and Malay). Considering these gaps, we introduce MENmBERT and MENBERT, a pre-trained language model with contextual understanding, specifically tailored for Malaysian English. We have fine-tuned MENmBERT and MENBERT using manually annotated entities and relations from the Malaysian English News Article (MEN) Dataset. This fine-tuning process allows the PLM to learn representations that capture the nuances of Malaysian English relevant for NER and RE tasks. MENmBERT achieved a 1.52\% and 26.27\% improvement on NER and RE tasks respectively compared to the bert-base-multilingual-cased model. Although the overall performance of NER does not have a significant improvement, our further analysis shows that there is a significant improvement when evaluated by the 12 entity labels. These findings suggest that pre-training language models on language-specific and geographically-focused corpora can be a promising approach for improving NER performance in low-resource settings. The dataset and code published in this paper provide valuable resources for NLP research work focusing on Malaysian English.
- Abstract(参考訳): マレーシア英語は低資源のクレオール言語であり、標準英語に加えてマレー語、中国語、タミル語の要素も持っている。
名前付きエンティティ認識(NER)モデルは、マレーシア英語のテキストからエンティティをキャプチャする際、その独特の形態素的適応、意味的特徴、コードスイッチング(英語とマレー語を混合する)により、性能が低下する。
これらのギャップを考慮すると、マレーシア英語に特化して、文脈理解を備えた事前学習型言語モデルであるMENmBERTとMENBERTを導入する。
我々はマレーシア英語ニュース記事(MEN)データセットから手動の注釈付きエンティティと関係を利用して、MENmBERTとMENBERTを微調整した。
この微調整プロセスにより、PLMは、NERおよびREタスクに関連するマレーシア英語のニュアンスをキャプチャする表現を学ぶことができる。
MENmBERT は bert-base-multilingual-cased モデルと比較して NER と RE のタスクが 1.52 % と 26.27 % 改善された。
NERの全体的な性能は改善されていないが、さらに分析した結果、12のエンティティラベルによる評価では、大幅な改善が見られた。
これらの結果から,低リソース環境下でのNER性能向上には,言語固有の言語モデルと地理的に焦点を絞ったコーパスの事前学習が有望なアプローチであることが示唆された。
本稿では,マレーシア英語に焦点をあてたNLP研究のためのデータセットとコードについて述べる。
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Malaysian English News Decoded: A Linguistic Resource for Named Entity
and Relation Extraction [1.9927672677487354]
本稿では、アノテートされたデータセットのデータの取得、アノテーションの方法論、そして徹底的な分析における我々の取り組みについて述べる。
我々は6,061個のエンティティと3,268個のリレーショナルインスタンスを持つデータセットを開発した。
このユニークなデータセットは、マレーシア英語におけるNLP研究の進展に大きく貢献する。
論文 参考訳(メタデータ) (2024-02-22T13:12:05Z) - MaLLaM -- Malaysia Large Language Model [0.0]
私たちは、349GBのデータセットで11億、30億、50億のパラメータを持つモデルをトレーニングしました。
MaLLaMは、マレー語における自然言語理解と生成タスクの強化に貢献している。
論文 参考訳(メタデータ) (2024-01-26T06:56:05Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。