論文の概要: Zero-Resource Multi-Dialectal Arabic Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2104.06591v1
- Date: Wed, 14 Apr 2021 02:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 00:10:02.080511
- Title: Zero-Resource Multi-Dialectal Arabic Natural Language Understanding
- Title(参考訳): zero-resource multi-dialectal arabic natural language understanding
- Authors: Muhammad Khalifa and Hesham Hassan and Aly Fahmy
- Abstract要約: 本稿では,現代標準アラビア語(MSA)データのみに基づく事前学習言語モデルを微調整する場合に,Dialectal Arabic(DA)のゼロショット性能について検討する。
ラベルなしDAデータによる自己学習を提案し、名前付きエンティティ認識(NER)、POSタグ付け(POS)、SRD(Sarcasm Detection)のコンテキストに適用する。
その結果,未ラベルDAデータを用いた自己学習の有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reasonable amount of annotated data is required for fine-tuning pre-trained
language models (PLM) on downstream tasks. However, obtaining labeled examples
for different language varieties can be costly. In this paper, we investigate
the zero-shot performance on Dialectal Arabic (DA) when fine-tuning a PLM on
modern standard Arabic (MSA) data only -- identifying a significant performance
drop when evaluating such models on DA. To remedy such performance drop, we
propose self-training with unlabeled DA data and apply it in the context of
named entity recognition (NER), part-of-speech (POS) tagging, and sarcasm
detection (SRD) on several DA varieties. Our results demonstrate the
effectiveness of self-training with unlabeled DA data: improving zero-shot
MSA-to-DA transfer by as large as \texttildelow 10\% F$_1$ (NER), 2\% accuracy
(POS tagging), and 4.5\% F$_1$ (SRD). We conduct an ablation experiment and
show that the performance boost observed directly results from the unlabeled DA
examples used for self-training. Our work opens up opportunities for leveraging
the relatively abundant labeled MSA datasets to develop DA models for zero and
low-resource dialects. We also report new state-of-the-art performance on all
three tasks and open-source our fine-tuned models for the research community.
- Abstract(参考訳): ダウンストリームタスクで事前学習された言語モデル(plm)を微調整するには、適切な量のアノテートデータが必要である。
しかし、異なる言語品種のラベル付き例を得るにはコストがかかる。
本稿では,現代の標準アラビア(MSA)データにのみ PLM を微調整した場合の方言アラビア(DA)のゼロショット性能について検討する。
このような性能低下を補うために,ラベルのないDAデータを用いた自己学習を提案し,それを名前付きエンティティ認識(NER,Part-of-speech,POS)タグ,およびSRD(Sarcasm detection, SRD)のコンテキストに適用する。
以上の結果から, ゼロショットMSA-to-DA転送を10\% F$_1$ (NER), 2\%精度 (POSタグ付け), 4.5\% F$_1$ (SRD) に向上させることで, ラベル付きDAデータによる自己学習の有効性が示された。
アブレーション実験を行い, 自己学習に用いたラベルなしのda例から, 直接観察した性能向上結果を示す。
我々の研究は、比較的豊富なラベル付きMSAデータセットを活用する機会を開き、ゼロおよび低リソース方言のためのDAモデルを開発する。
また,3つのタスクすべてに対する最新のパフォーマンスについて報告し,研究コミュニティ向けの微調整モデルをオープンソース化した。
関連論文リスト
- RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。