論文の概要: MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages
- arxiv url: http://arxiv.org/abs/2305.13989v1
- Date: Tue, 23 May 2023 12:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:39:42.397683
- Title: MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages
- Title(参考訳): MasakhaPOS: タイポロジー的に異なるアフリカの言語のための音声タグ
- Authors: Cheikh M. Bamba Dione, David Adelani, Peter Nabende, Jesujoba Alabi,
Thapelo Sindane, Happy Buzaaba, Shamsuddeen Hassan Muhammad, Chris Chinenye
Emezue, Perez Ogayo, Anuoluwapo Aremu, Catherine Gitau, Derguene Mbaye,
Jonathan Mukiibi, Blessing Sibanda, Bonaventure F. P. Dossou, Andiswa Bukula,
Rooweither Mabuya, Allahsera Auguste Tapo, Edwin Munkoh-Buabeng, victoire
Memdjokam Koagne, Fatoumata Ouoba Kabore, Amelia Taylor, Godson Kalipe,
Tebogo Macucwa, Vukosi Marivate, Tajuddeen Gwadabe, Mboning Tchiaze Elvis,
Ikechukwu Onyenwe, Gratien Atindogbe, Tolulope Adelani, Idris Akinade,
Olanrewaju Samuel, Marien Nahimana, Th\'eog\`ene Musabeyezu, Emile
Niyomutabazi, Ester Chimhenga, Kudzai Gotosa, Patrick Mizha, Apelete Agbolo,
Seydou Traore, Chinedu Uchechukwu, Aliyu Yusuf, Muhammad Abdullahi and
Dietrich Klakow
- Abstract要約: 原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。
本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
- 参考スコア(独自算出の注目度): 7.86385861664505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present MasakhaPOS, the largest part-of-speech (POS)
dataset for 20 typologically diverse African languages. We discuss the
challenges in annotating POS for these languages using the UD (universal
dependencies) guidelines. We conducted extensive POS baseline experiments using
conditional random field and several multilingual pre-trained language models.
We applied various cross-lingual transfer models trained with data available in
UD. Evaluating on the MasakhaPOS dataset, we show that choosing the best
transfer language(s) in both single-source and multi-source setups greatly
improves the POS tagging performance of the target languages, in particular
when combined with cross-lingual parameter-efficient fine-tuning methods.
Crucially, transferring knowledge from a language that matches the language
family and morphosyntactic properties seems more effective for POS tagging in
unseen languages.
- Abstract(参考訳): 本稿では,20の類型的に多様なアフリカ言語を対象としたPOSデータセットであるMashokhaPOSを提案する。
UD(UniversalDependency)ガイドラインを用いて,これらの言語に対してPOSに注釈をつける際の課題について議論する。
条件付きランダムフィールドと多言語事前学習言語モデルを用いたPOSベースライン実験を行った。
UDで利用可能なデータをトレーニングした多種多様な言語間移動モデルを適用した。
masakhaposデータセット上での評価では、単一ソースと複数ソースの両方で最高の転送言語を選択することで、特に言語間パラメータ効率の良い微調整手法と組み合わせることで、ターゲット言語のposタグ性能が大幅に向上することが示された。
重要な点として、言語ファミリーと形態素的特性にマッチする言語から知識を移すことは、未熟な言語でのposタグ付けにより効果的である。
関連論文リスト
- A Measure for Transparent Comparison of Linguistic Diversity in
Multilingual NLP Data Sets [1.2496128154771307]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank [13.630306305322094]
プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズを削減し,ドナーとして下流のパフォーマンスを向上させる事前学習言語を分類するために,バランスの取れたデータ条件下でゼロショット性能を検査する。
論文 参考訳(メタデータ) (2022-05-09T07:32:50Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。