Fugu-MT 論文翻訳(概要): Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank

論文の概要: Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank

arxiv url: http://arxiv.org/abs/2009.14124v3
Date: Sat, 18 Jun 2022 03:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 06:19:12.163967
Title: Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank
Title（参考訳）: 多言語BERT, 小コーパス, 小木バンクによる構文解析
Authors: Ethan C. Chau, Lucy H. Lin, Noah A. Smith
Abstract要約: 事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練されたデータの制限のため、すべての言語品種に等しく適用されない。このことは、ラベル付き未ラベルデータがモノリンガルモデルを効果的に訓練するにはあまりに限られている、これらのモデルに馴染みのない言語多様体にとっての課題である。本稿では,低リソース環境に多言語モデルを適用するために,言語固有の事前学習と語彙拡張の利用を提案する。
参考スコア（独自算出の注目度）: 46.626315158735615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained multilingual contextual representations have shown great success, but due to the limits of their pretraining data, their benefits do not apply equally to all language varieties. This presents a challenge for language varieties unfamiliar to these models, whose labeled \emph{and unlabeled} data is too limited to train a monolingual model effectively. We propose the use of additional language-specific pretraining and vocabulary augmentation to adapt multilingual models to low-resource settings. Using dependency parsing of four diverse low-resource language varieties as a case study, we show that these methods significantly improve performance over baselines, especially in the lowest-resource cases, and demonstrate the importance of the relationship between such models' pretraining data and target language varieties.
Abstract（参考訳）: 事前訓練された多言語文脈表現は大きな成功を収めてきたが、事前訓練データの制限のため、すべての言語品種に等しく適用されない。これは、これらのモデルになじみのない言語多様体に対する挑戦を示しており、それらのデータは、単言語モデルを効果的に訓練するには制限されすぎている。低リソース環境に多言語モデルを適用するために,言語固有の事前訓練と語彙拡張を提案する。 4種類の低リソース言語の依存解析をケーススタディとして用い,これらの手法がベースライン,特に低リソースの場合における性能を著しく向上し,それらのモデルの事前学習データと対象言語種との関係の重要性を実証した。

関連論文リスト

Revisiting Multilingual Data Mixtures in Language Model Pretraining [20.282622416939997]
大規模言語モデルの事前学習における多言語データ混合の影響について検討する。英語と多言語のデータの組み合わせは、いずれかのグループの言語内性能を劣化させるとは限らない。トレーニング言語の数が増加するにつれて、重要な「多言語性の帰結」は観測されない。
論文参考訳（メタデータ） (2025-10-29T20:46:03Z)
Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文参考訳（メタデータ） (2024-05-13T13:41:59Z)
Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文参考訳（メタデータ） (2023-06-05T04:10:04Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文参考訳（メタデータ） (2020-12-31T14:11:00Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文参考訳（メタデータ） (2020-10-24T10:15:03Z)
Structure-Level Knowledge Distillation For Multilingual Sequence Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。 25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文参考訳（メタデータ） (2020-04-08T07:14:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。