論文の概要: Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging
- arxiv url: http://arxiv.org/abs/2305.16834v1
- Date: Fri, 26 May 2023 11:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 15:21:31.614979
- Title: Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging
- Title(参考訳): free lunch: モデルチェックポイント平均化によるロバストな言語間転送
- Authors: Fabian David Schmidt, Ivan Vuli\'c, Goran Glava\v{s}
- Abstract要約: 超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 60.79382212029304
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Massively multilingual language models have displayed strong performance in
zero-shot (ZS-XLT) and few-shot (FS-XLT) cross-lingual transfer setups, where
models fine-tuned on task data in a source language are transferred without any
or with only a few annotated instances to the target language(s). However,
current work typically overestimates model performance as fine-tuned models are
frequently evaluated at model checkpoints that generalize best to validation
instances in the target languages. This effectively violates the main
assumptions of "true" ZS-XLT and FS-XLT. Such XLT setups require robust methods
that do not depend on labeled target language data for validation and model
selection. In this work, aiming to improve the robustness of "true" ZS-XLT and
FS-XLT, we propose a simple and effective method that averages different
checkpoints (i.e., model snapshots) during task fine-tuning. We conduct
exhaustive ZS-XLT and FS-XLT experiments across higher-level semantic tasks
(NLI, extractive QA) and lower-level token classification tasks (NER, POS). The
results indicate that averaging model checkpoints yields systematic and
consistent performance gains across diverse target languages in all tasks.
Importantly, it simultaneously substantially desensitizes XLT to varying
hyperparameter choices in the absence of target language validation. We also
show that checkpoint averaging benefits performance when further combined with
run averaging (i.e., averaging the parameters of models fine-tuned over
independent runs).
- Abstract(参考訳): zero-shot (zs-xlt) と few-shot (fs-xlt) のクロスリンガルトランスファーセットアップでは、ソース言語のタスクデータに基づいて微調整されたモデルが、ターゲット言語に注釈付きインスタンスを数個も持たずに転送される。
しかしながら、現在の作業は、ターゲット言語のバリデーションインスタンスに最適なモデルチェックポイントで、微調整されたモデルが頻繁に評価されるため、モデルのパフォーマンスを過大評価する。
これは事実上、ZS-XLTとFS-XLTの主な仮定に反する。
このようなXLTセットアップは、検証とモデル選択のためにラベル付き言語データに依存しない堅牢なメソッドを必要とする。
本研究では,「真の」ZS-XLTとFS-XLTのロバスト性の向上を目的として,タスク微調整中に異なるチェックポイント(モデルスナップショット)を平均化する簡易かつ効率的な手法を提案する。
我々は,高レベルセマンティックタスク(NLI,抽出QA)と低レベルトークン分類タスク(NER,POS)の総合的なZS-XLTおよびFS-XLT実験を行った。
その結果, モデルチェックポイントの平均化は, 全てのタスクにおいて, 多様な対象言語に対して, 体系的かつ一貫した性能向上をもたらすことがわかった。
重要なことは、ターゲット言語検証がない場合に、XLTを様々なハイパーパラメータ選択に実質的にデセンシタイズすることである。
また、チェックポイント平均化は、実行平均化(独立実行よりも微調整されたモデルのパラメータの平均化)と組み合わせることでパフォーマンスが向上することを示す。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity [19.15213046428148]
クロスランガルトランスファー(XLT)は、微調整プロセスに含まれていない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルである。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
論文 参考訳(メタデータ) (2023-10-26T05:39:49Z) - One For All & All For One: Bypassing Hyperparameter Tuning with Model
Averaging For Cross-Lingual Transfer [61.455775535559276]
本稿では,ZS-XLTの教師なし評価プロトコルを提案する。
我々は、高レベルセマンティックタスク(NLI、抽出QA)と低レベルトークン分類タスク(NER)の両方について、幅広いZS-XLT実験を行う。
ソースコード検証に基づく従来のモデル選択は,高速にZS-XLTの性能を最適化する。
論文 参考訳(メタデータ) (2023-10-16T15:50:34Z) - Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual
Understanding With Multilingual Language Models [95.32691891392903]
本稿では,プロンプトチューニングを用いた様々なNLUタスクの言語間評価を行い,それを微調整と比較する。
その結果, アクシデントチューニングは, データセット間の微調整よりもはるかに優れた言語間移動を実現することがわかった。
論文 参考訳(メタデータ) (2022-10-22T05:48:02Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - XeroAlign: Zero-Shot Cross-lingual Transformer Alignment [9.340611077939828]
XLM-Rなどのクロスリンガルプリトレーニングトランスのタスク固有アライメント法について紹介する。
XeroAlignは翻訳されたタスクデータを使用して、モデルが異なる言語の同様の文埋め込みを生成するよう促します。
XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端のモデルと同等である。
論文 参考訳(メタデータ) (2021-05-06T07:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。