論文の概要: Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling
- arxiv url: http://arxiv.org/abs/2101.04758v4
- Date: Tue, 2 Feb 2021 23:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 03:58:45.078109
- Title: Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling
- Title(参考訳): ゼロ・マイ・ショット・マルチダイアレクタル・アラビア列ラベリングのための自己学習事前学習言語モデル
- Authors: Muhammad Khalifa and Muhammad Abdul-Mageed and Khaled Shaalan
- Abstract要約: データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
- 参考スコア(独自算出の注目度): 7.310390479801139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A sufficient amount of annotated data is usually required to fine-tune
pre-trained language models for downstream tasks. Unfortunately, attaining
labeled data can be costly, especially for multiple language varieties and
dialects. We propose to self-train pre-trained language models in zero- and
few-shot scenarios to improve performance on data-scarce varieties using only
resources from data-rich ones. We demonstrate the utility of our approach in
the context of Arabic sequence labeling by using a language model fine-tuned on
Modern Standard Arabic (MSA) only to predict named entities (NE) and
part-of-speech (POS) tags on several dialectal Arabic (DA) varieties. We show
that self-training is indeed powerful, improving zero-shot MSA-to-DA transfer
by as large as \texttildelow 10\% F$_1$ (NER) and 2\% accuracy (POS tagging).
We acquire even better performance in few-shot scenarios with limited amounts
of labeled data. We conduct an ablation study and show that the performance
boost observed directly results from the unlabeled DA examples used for
self-training. Our work opens up opportunities for developing DA models
exploiting only MSA resources and it can be extended to other languages and
tasks. Our code and fine-tuned models can be accessed at
https://github.com/mohammadKhalifa/zero-shot-arabic-dialects.
- Abstract(参考訳): 通常、ダウンストリームタスクのために事前学習された言語モデルを微調整するために、十分な量の注釈付きデータが必要である。
残念なことに、ラベル付きデータを得ることは、特に複数の言語や方言において、コストがかかる可能性がある。
我々は、データリッチな言語からのみのリソースを用いて、データスカース品種の性能を向上させるために、ゼロおよび少数ショットシナリオで事前訓練された言語モデルを自己学習することを提案する。
我々は、現代標準アラビア語(MSA)を微調整した言語モデルを用いて、複数の方言アラビア語(DA)品種における名前付きエンティティ(NE)とPOSタグを予測することで、アラビア語シーケンスラベリングの文脈におけるアプローチの有用性を実証する。
自己学習は確かに強力であり, ゼロショットMSA-to-DA転送を10\% F$_1$ (NER) と2\%精度 (POSタグ付け) で改善している。
限定的なラベル付きデータで、数回のシナリオでパフォーマンスがさらに向上します。
本研究は, 自己学習に用いた未ラベルDA例から直接観察した性能向上効果を示す。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開き、他の言語やタスクにも拡張できます。
私たちのコードと微調整されたモデルは、https://github.com/mohammadKhalifa/zero-shot-arabic-dialectsでアクセスできます。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。
本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。
その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-06-03T10:18:43Z) - Zero-Resource Multi-Dialectal Arabic Natural Language Understanding [0.0]
本稿では,現代標準アラビア語(MSA)データのみに基づく事前学習言語モデルを微調整する場合に,Dialectal Arabic(DA)のゼロショット性能について検討する。
ラベルなしDAデータによる自己学習を提案し、名前付きエンティティ認識(NER)、POSタグ付け(POS)、SRD(Sarcasm Detection)のコンテキストに適用する。
その結果,未ラベルDAデータを用いた自己学習の有効性が示された。
論文 参考訳(メタデータ) (2021-04-14T02:29:27Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。