論文の概要: Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation
- arxiv url: http://arxiv.org/abs/2203.09435v1
- Date: Thu, 17 Mar 2022 16:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 18:09:24.283325
- Title: Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation
- Title(参考訳): プレトレーニングされたモデルを辞書ベースの適応により数千の言語に拡張する
- Authors: Xinyi Wang, Sebastian Ruder, Graham Neubig
- Abstract要約: 我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
- 参考スコア(独自算出の注目度): 133.7313847857935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of multilingual pretrained models is highly dependent on the
availability of monolingual or parallel text present in a target language.
Thus, the majority of the world's languages cannot benefit from recent progress
in NLP as they have no or limited textual data. To expand possibilities of
using NLP technology in these under-represented languages, we systematically
study strategies that relax the reliance on conventional language resources
through the use of bilingual lexicons, an alternative resource with much better
language coverage. We analyze different strategies to synthesize textual or
labeled data using lexicons, and how this data can be combined with monolingual
or parallel text when available. For 19 under-represented languages across 3
tasks, our methods lead to consistent improvements of up to 5 and 15 points
with and without extra monolingual text respectively. Overall, our study
highlights how NLP methods can be adapted to thousands more languages that are
under-served by current technology
- Abstract(参考訳): 多言語事前訓練モデルの性能は、対象言語に存在する単言語または並列テキストの可用性に大きく依存する。
したがって、世界の言語の大部分は、テキストデータがないか制限されているため、最近のNLPの進歩の恩恵を受けることはできない。
そこで我々は,従来の言語資源への依存を緩和する戦略を,より優れた言語カバレッジを持つ代替資源であるバイリンガル・レキシコンを用いて体系的に研究した。
レキシコンを用いてテキストまたはラベル付きデータを合成するための様々な戦略と、このデータが利用可能な場合の単一言語または並列テキストとどのように組み合わせられるかを分析する。
3つのタスクにまたがる19の未表現言語に対して,提案手法は,それぞれ単言語テキストを含まない5点と15点の一貫した改善をもたらす。
全体として、我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調している。
関連論文リスト
- Embedding structure matters: Comparing methods to adapt multilingual
vocabularies to new languages [20.17308477850864]
事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
本稿では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T04:27:18Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。