論文の概要: MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages
- arxiv url: http://arxiv.org/abs/2305.13989v1
- Date: Tue, 23 May 2023 12:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:39:42.397683
- Title: MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages
- Title(参考訳): MasakhaPOS: タイポロジー的に異なるアフリカの言語のための音声タグ
- Authors: Cheikh M. Bamba Dione, David Adelani, Peter Nabende, Jesujoba Alabi,
Thapelo Sindane, Happy Buzaaba, Shamsuddeen Hassan Muhammad, Chris Chinenye
Emezue, Perez Ogayo, Anuoluwapo Aremu, Catherine Gitau, Derguene Mbaye,
Jonathan Mukiibi, Blessing Sibanda, Bonaventure F. P. Dossou, Andiswa Bukula,
Rooweither Mabuya, Allahsera Auguste Tapo, Edwin Munkoh-Buabeng, victoire
Memdjokam Koagne, Fatoumata Ouoba Kabore, Amelia Taylor, Godson Kalipe,
Tebogo Macucwa, Vukosi Marivate, Tajuddeen Gwadabe, Mboning Tchiaze Elvis,
Ikechukwu Onyenwe, Gratien Atindogbe, Tolulope Adelani, Idris Akinade,
Olanrewaju Samuel, Marien Nahimana, Th\'eog\`ene Musabeyezu, Emile
Niyomutabazi, Ester Chimhenga, Kudzai Gotosa, Patrick Mizha, Apelete Agbolo,
Seydou Traore, Chinedu Uchechukwu, Aliyu Yusuf, Muhammad Abdullahi and
Dietrich Klakow
- Abstract要約: 原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。
本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
- 参考スコア(独自算出の注目度): 7.86385861664505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present MasakhaPOS, the largest part-of-speech (POS)
dataset for 20 typologically diverse African languages. We discuss the
challenges in annotating POS for these languages using the UD (universal
dependencies) guidelines. We conducted extensive POS baseline experiments using
conditional random field and several multilingual pre-trained language models.
We applied various cross-lingual transfer models trained with data available in
UD. Evaluating on the MasakhaPOS dataset, we show that choosing the best
transfer language(s) in both single-source and multi-source setups greatly
improves the POS tagging performance of the target languages, in particular
when combined with cross-lingual parameter-efficient fine-tuning methods.
Crucially, transferring knowledge from a language that matches the language
family and morphosyntactic properties seems more effective for POS tagging in
unseen languages.
- Abstract(参考訳): 本稿では,20の類型的に多様なアフリカ言語を対象としたPOSデータセットであるMashokhaPOSを提案する。
UD(UniversalDependency)ガイドラインを用いて,これらの言語に対してPOSに注釈をつける際の課題について議論する。
条件付きランダムフィールドと多言語事前学習言語モデルを用いたPOSベースライン実験を行った。
UDで利用可能なデータをトレーニングした多種多様な言語間移動モデルを適用した。
masakhaposデータセット上での評価では、単一ソースと複数ソースの両方で最高の転送言語を選択することで、特に言語間パラメータ効率の良い微調整手法と組み合わせることで、ターゲット言語のposタグ性能が大幅に向上することが示された。
重要な点として、言語ファミリーと形態素的特性にマッチする言語から知識を移すことは、未熟な言語でのposタグ付けにより効果的である。
関連論文リスト
- Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - An Efficient Approach for Studying Cross-Lingual Transfer in Multilingual Language Models [26.72394783468532]
本稿では,他の対象言語に対するゼロショット性能における転送言語の影響を研究するためのテキスト効率の手法を提案する。
以上の結果から,一部の言語,特に事前学習中に見つからない言語は,異なる対象言語に対して極めて有益あるいは有害である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-29T09:52:18Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。