論文の概要: Are Multilingual Models Effective in Code-Switching?
- arxiv url: http://arxiv.org/abs/2103.13309v1
- Date: Wed, 24 Mar 2021 16:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:13:12.295950
- Title: Are Multilingual Models Effective in Code-Switching?
- Title(参考訳): 多言語モデルはコードスイッチングに有効か?
- Authors: Genta Indra Winata, Samuel Cahyawijaya, Zihan Liu, Zhaojiang Lin,
Andrea Madotto, Pascale Fung
- Abstract要約: 多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
- 参考スコア(独自算出の注目度): 57.78477547424949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual language models have shown decent performance in multilingual
and cross-lingual natural language understanding tasks. However, the power of
these multilingual models in code-switching tasks has not been fully explored.
In this paper, we study the effectiveness of multilingual language models to
understand their capability and adaptability to the mixed-language setting by
considering the inference speed, performance, and number of parameters to
measure their practicality. We conduct experiments in three language pairs on
named entity recognition and part-of-speech tagging and compare them with
existing methods, such as using bilingual embeddings and multilingual
meta-embeddings. Our findings suggest that pre-trained multilingual models do
not necessarily guarantee high-quality representations on code-switching, while
using meta-embeddings achieves similar results with significantly fewer
parameters.
- Abstract(参考訳): 多言語言語モデルは、多言語および多言語間自然言語理解タスクにおいて良好な性能を示している。
しかし、コードスイッチングタスクにおける多言語モデルの能力は十分に検討されていない。
本稿では,多言語モデルの有効性について検討し,その実用性を評価するための推論速度,性能,パラメータ数を考慮した混合言語設定への適応性について検討する。
名前付きエンティティ認識とpart-of-speech taggingの3つの言語ペアで実験を行い,バイリンガル埋め込みや多言語メタ埋め込みなど既存の手法と比較した。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことがわかった。
関連論文リスト
- HiJoNLP at SemEval-2022 Task 2: Detecting Idiomaticity of Multiword
Expressions using Multilingual Pretrained Language Models [0.6091702876917281]
本稿では,多言語事前学習言語モデル上でのMWEの文脈的表現からのみ慣用性を検出する手法について述べる。
実験の結果,より大きなモデルの方が慣用性検出に有効であることが確認された。
論文 参考訳(メタデータ) (2022-05-27T01:55:59Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。