論文の概要: Zero-shot Cross-lingual Transfer is Under-specified Optimization
- arxiv url: http://arxiv.org/abs/2207.05666v1
- Date: Tue, 12 Jul 2022 16:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:56:24.774330
- Title: Zero-shot Cross-lingual Transfer is Under-specified Optimization
- Title(参考訳): ゼロショットクロスリンガルトランスファーは過小条件の最適化である
- Authors: Shijie Wu, Benjamin Van Durme, Mark Dredze
- Abstract要約: ソース言語単言語モデルとソース+ターゲットバイリンガルモデルとの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つことを示す。
また、ゼロショット解は対象言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示した。
- 参考スコア(独自算出の注目度): 49.3779328255767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained multilingual encoders enable zero-shot cross-lingual transfer, but
often produce unreliable models that exhibit high performance variance on the
target language. We postulate that this high variance results from zero-shot
cross-lingual transfer solving an under-specified optimization problem. We show
that any linear-interpolated model between the source language monolingual
model and source + target bilingual model has equally low source language
generalization error, yet the target language generalization error reduces
smoothly and linearly as we move from the monolingual to bilingual model,
suggesting that the model struggles to identify good solutions for both source
and target languages using the source language alone. Additionally, we show
that zero-shot solution lies in non-flat region of target language error
generalization surface, causing the high variance.
- Abstract(参考訳): 事前訓練された多言語エンコーダはゼロショットの言語間転送を可能にするが、しばしばターゲット言語で高い性能のばらつきを示す信頼性の低いモデルを生成する。
この高分散は、未特定最適化問題を解くゼロショット言語間移動によるものであると仮定する。
ソース言語単言語モデルとソース+ターゲットバイリンガルモデルの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つが、ターゲット言語一般化誤差は、モノリンガルモデルからバイリンガルモデルへの移行に伴って、滑らかかつ線形的に減少し、ソース言語のみを用いてソース言語とターゲット言語の両方にとって良い解を見つけるのに苦慮していることを示す。
さらに、ゼロショット解はターゲット言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示す。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - DiTTO: A Feature Representation Imitation Approach for Improving
Cross-Lingual Transfer [15.062937537799005]
ゼロショット転送を改善するためのドメインとしての言語。
我々のアプローチであるDiTTOは、標準のゼロショット微調整法よりも大幅に優れていることを示す。
我々のモデルは、数ショット設定であっても、標準的な微調整法よりも言語間移動がより良くできる。
論文 参考訳(メタデータ) (2023-03-04T08:42:50Z) - Efficient Language Model Training through Cross-Lingual and Progressive
Transfer Learning [0.7612676127275795]
ほとんどのトランスフォーマー言語モデルは英語のテキストで事前訓練されている。
モデルのサイズが大きくなるにつれて、英語と他の言語のパフォーマンスギャップはさらに大きくなる。
我々はCLP-Transferと呼ばれる言語横断的・進行的トランスファー学習手法を導入する。
論文 参考訳(メタデータ) (2023-01-23T18:56:12Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。