論文の概要: Model Selection for Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2010.06127v2
- Date: Fri, 10 Sep 2021 01:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:45:24.353744
- Title: Model Selection for Cross-Lingual Transfer
- Title(参考訳): 言語間伝達のためのモデル選択
- Authors: Yang Chen and Alan Ritter
- Abstract要約: 本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
- 参考スコア(独自算出の注目度): 15.197350103781739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers that are pre-trained on multilingual corpora, such as, mBERT and
XLM-RoBERTa, have achieved impressive cross-lingual transfer capabilities. In
the zero-shot transfer setting, only English training data is used, and the
fine-tuned model is evaluated on another target language. While this works
surprisingly well, substantial variance has been observed in target language
performance between different fine-tuning runs, and in the zero-shot setup, no
target-language development data is available to select among multiple
fine-tuned models. Prior work has relied on English dev data to select among
models that are fine-tuned with different learning rates, number of steps and
other hyperparameters, often resulting in suboptimal choices. In this paper, we
show that it is possible to select consistently better models when small
amounts of annotated data are available in auxiliary pivot languages. We
propose a machine learning approach to model selection that uses the fine-tuned
model's own internal representations to predict its cross-lingual capabilities.
In extensive experiments we find that this method consistently selects better
models than English validation data across twenty five languages (including
eight low-resource languages), and often achieves results that are comparable
to model selection using target language development data.
- Abstract(参考訳): mBERT や XLM-RoBERTa などの多言語コーパスで事前訓練された変換器は,言語間転送能力に優れていた。
ゼロショット転送設定では、英語のトレーニングデータのみを使用し、他のターゲット言語で微調整モデルを評価する。
これは驚くほどうまく機能するが、異なる微調整実行間のターゲット言語性能にはかなりのばらつきが見られ、ゼロショット設定では、複数の微調整モデルの中からターゲット言語開発データが選択できない。
以前の作業では、異なる学習率、ステップ数、その他のハイパーパラメータで微調整されたモデルの中から選択するために、英語の開発データに頼っていた。
本稿では、補助的なピボット言語で少量のアノテートデータが利用できる場合、一貫してより良いモデルを選択することができることを示す。
本稿では,言語横断能力を予測するために,微調整されたモデルの内部表現を用いたモデル選択のための機械学習手法を提案する。
広範な実験で、この手法は25ヶ国語(低リソース言語8ヶ国語を含む)の英語検証データよりも優れたモデルを一貫して選択し、ターゲット言語開発データを用いたモデル選択に匹敵する結果を得ることが多い。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment [39.94156255629528]
ゼロショット・クロスランガルアライメントのための簡単なアプローチを評価する。
言語間の整列モデルは、非整列モデルよりも人間の方が好まれる。
異なる言語報酬モデルでは、同言語報酬モデルよりも優れた整列モデルが得られることがある。
論文 参考訳(メタデータ) (2024-04-18T16:52:36Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Model and Data Transfer for Cross-Lingual Sequence Labelling in
Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。
この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。
また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文 参考訳(メタデータ) (2022-10-23T05:37:35Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual
Conversational Agent Models [1.52292571922932]
自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。
これらの多言語モデルが,言語固有のテストデータにまたがる単言語モデルと比較して,同等あるいは優れた性能に到達できることを示す。
論文 参考訳(メタデータ) (2020-12-07T17:14:52Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。