論文の概要: Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin
- arxiv url: http://arxiv.org/abs/2404.18264v1
- Date: Sun, 28 Apr 2024 18:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:25:56.890569
- Title: Modeling Orthographic Variation Improves NLP Performance for Nigerian Pidgin
- Title(参考訳): ナイジェリアピジンのNLP性能を改善するオルソグラフィー変動のモデル化
- Authors: Pin-Jie Lin, Merel Scholman, Muhammed Saeed, Vera Demberg,
- Abstract要約: ナイジェリアのピジン語は英語由来の接触言語であり、伝統的に口語であり、約1億人の人々が話していた。
正書法標準はまだ採用されておらず、利用可能なピジンデータセットは、正書法の変化の形でノイズによって特徴づけられる。
これは、重要なNLPタスクにおけるモデルの低パフォーマンスに寄与する。
現在の研究はナイジェリアのピジンのテキストに見られる様々な種類の正書法を初めて記述し、この正書法の変化をモデル化したものである。
我々は、このデータ拡張が2つの重要なNLPタスク、機械翻訳と感情に及ぼす影響をテストする。
- 参考スコア(独自算出の注目度): 13.86823643401895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nigerian Pidgin is an English-derived contact language and is traditionally an oral language, spoken by approximately 100 million people. No orthographic standard has yet been adopted, and thus the few available Pidgin datasets that exist are characterised by noise in the form of orthographic variations. This contributes to under-performance of models in critical NLP tasks. The current work is the first to describe various types of orthographic variations commonly found in Nigerian Pidgin texts, and model this orthographic variation. The variations identified in the dataset form the basis of a phonetic-theoretic framework for word editing, which is used to generate orthographic variations to augment training data. We test the effect of this data augmentation on two critical NLP tasks: machine translation and sentiment analysis. The proposed variation generation framework augments the training data with new orthographic variants which are relevant for the test set but did not occur in the training set originally. Our results demonstrate the positive effect of augmenting the training data with a combination of real texts from other corpora as well as synthesized orthographic variation, resulting in performance improvements of 2.1 points in sentiment analysis and 1.4 BLEU points in translation to English.
- Abstract(参考訳): ナイジェリアのピジン語は英語由来の接触言語であり、伝統的に口語であり、約1億人の人々が話していた。
正書法標準はまだ採用されておらず、利用可能なピジンデータセットは、正書法の変化の形でノイズによって特徴づけられる。
これは、重要なNLPタスクにおけるモデルの低パフォーマンスに寄与する。
現在の研究はナイジェリアのピジンのテキストに見られる様々な種類の正書法を初めて記述し、この正書法の変化をモデル化したものである。
データセットで特定されたバリエーションは、単語編集のための音声理論フレームワークの基盤となり、このフレームワークは、トレーニングデータを増やすために、正書法的なバリエーションを生成するのに使用される。
我々は,このデータ拡張が機械翻訳と感情分析の2つの重要なNLPタスクに与える影響を検証した。
提案した変分生成フレームワークは、テストセットに関連があるが、もともとトレーニングセットには発生しなかった新しい正書法変分を用いてトレーニングデータを増強する。
以上の結果から,他のコーパスからの実際のテキストと合成正書法の変化を組み合わせることで,感情分析における2.1点,英語翻訳における1.4 BLEU点の性能向上を図った。
関連論文リスト
- Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - IndicXNLI: Evaluating Multilingual Inference for Indian Languages [9.838755823660147]
IndicXNLIは11のIndic言語のためのNLIデータセットである。
IndicXNLIで事前学習した異なるLMを微調整することにより、様々な言語間移動手法を解析する。
これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。
論文 参考訳(メタデータ) (2022-04-19T09:49:00Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - NL-Augmenter: A Framework for Task-Sensitive Natural Language
Augmentation [91.97706178867439]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。
このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。
我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文 参考訳(メタデータ) (2021-12-06T00:37:59Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。