論文の概要: A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank
- arxiv url: http://arxiv.org/abs/2205.04086v1
- Date: Mon, 9 May 2022 07:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 22:16:15.668707
- Title: A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank
- Title(参考訳): 言語間輸血の評価のためのバランスドデータアプローチ--言語性血液バンクのマッピング
- Authors: Dan Malkin, Tomasz Limisiewicz, Gabriel Stanovsky
- Abstract要約: プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズを削減し,ドナーとして下流のパフォーマンスを向上させる事前学習言語を分類するために,バランスの取れたデータ条件下でゼロショット性能を検査する。
- 参考スコア(独自算出の注目度): 13.630306305322094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that the choice of pretraining languages affects downstream
cross-lingual transfer for BERT-based models. We inspect zero-shot performance
in balanced data conditions to mitigate data size confounds, classifying
pretraining languages that improve downstream performance as donors, and
languages that are improved in zero-shot performance as recipients. We develop
a method of quadratic time complexity in the number of languages to estimate
these relations, instead of an exponential exhaustive computation of all
possible combinations. We find that our method is effective on a diverse set of
languages spanning different linguistic features and two downstream tasks. Our
findings can inform developers of large-scale multilingual language models in
choosing better pretraining configurations.
- Abstract(参考訳): プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズの相違を軽減し,ドナーとして下流性能を向上させる事前学習言語を分類し,受信者としてゼロショット性能を改善する言語について検討する。
我々は、これらの関係を推定するために言語数における二次時間複雑性の方法を開発した。
本手法は,異なる言語特徴と2つの下流課題にまたがる多様な言語に対して有効であることがわかった。
より優れた事前学習構成を選択することで,大規模多言語モデルの開発者に通知することができる。
関連論文リスト
- Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。