論文の概要: Morphosyntactic Tagging with Pre-trained Language Models for Arabic and
its Dialects
- arxiv url: http://arxiv.org/abs/2110.06852v1
- Date: Wed, 13 Oct 2021 16:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:30:26.369329
- Title: Morphosyntactic Tagging with Pre-trained Language Models for Arabic and
its Dialects
- Title(参考訳): アラビア語とその方言に対する事前学習言語モデルを用いたモルフォシンタクティックタグ
- Authors: Go Inoue, Salam Khalifa, Nizar Habash
- Abstract要約: 本研究は、アラビア語の様々な種類にまたがるモルフォシンタクティックなタグ付けについて、微調整された事前学習言語モデルを用いて最新の結果を示す。
私たちのモデルは、現代標準アラビア語の既存のシステムと、我々が研究しているすべてのアラビア方言を一貫して上回ります。
- 参考スコア(独自算出の注目度): 17.063334758301902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present state-of-the-art results on morphosyntactic tagging across
different varieties of Arabic using fine-tuned pre-trained transformer language
models. Our models consistently outperform existing systems in Modern Standard
Arabic and all the Arabic dialects we study, achieving 2.6% absolute
improvement over the previous state-of-the-art in Modern Standard Arabic, 2.8%
in Gulf, 1.6% in Egyptian, and 7.0% in Levantine. We explore different training
setups for fine-tuning pre-trained transformer language models, including
training data size, the use of external linguistic resources, and the use of
annotated data from other dialects in a low-resource scenario. Our results show
that strategic fine-tuning using datasets from other high-resource dialects is
beneficial for a low-resource dialect. Additionally, we show that high-quality
morphological analyzers as external linguistic resources are beneficial
especially in low-resource settings.
- Abstract(参考訳): 本稿では,微調整された事前学習されたトランスフォーマー言語モデルを用いて,アラビア語の異なる種類にまたがるモルフォシンタクティングに関する最新の結果について述べる。
我々のモデルは、現代標準アラビア語の既存のシステムと、我々が研究しているすべてのアラビア方言を一貫して上回り、近代標準アラビア語の最先端の2.6%、湾岸の2.8%、エジプトの1.6%、レバンタインの7.0%を絶対的に改善した。
学習データサイズ,外部言語資源の利用,低リソースシナリオにおける他の方言からの注釈付きデータの利用など,事前学習されたトランスフォーマー言語モデルの微調整のためのトレーニングセットアップについて検討する。
その結果,他の高資源方言のデータセットを用いた戦略的微調整は低リソース方言にとって有益であることがわかった。
さらに,外部言語資源としての高品質な形態解析器は,特に低リソース環境において有用であることを示す。
関連論文リスト
- AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Parameter and Data Efficient Continual Pre-training for Robustness to
Dialectal Variance in Arabic [9.004920233490642]
多言語BERT(mBERT)がアラビア語単言語データに漸進的に事前訓練されることは、トレーニング時間が少なく、我々のカスタム単言語単言語モデルと比較すると、同等の精度が得られることを示す。
次に,(1)少数の方言データを用いて連続的な微調整を行い,(2)アラビア語から英語への平行なデータと翻訳言語モデリング損失関数を探索する。
論文 参考訳(メタデータ) (2022-11-08T02:51:57Z) - Post-hoc analysis of Arabic transformer models [20.741730718486032]
我々は、アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて、言語情報がどのようにコード化されているかを探る。
アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。
論文 参考訳(メタデータ) (2022-10-18T16:53:51Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。