論文の概要: Improving Generalization of Adapter-Based Cross-lingual Transfer with
Scheduled Unfreezing
- arxiv url: http://arxiv.org/abs/2301.05487v1
- Date: Fri, 13 Jan 2023 11:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:37:12.590461
- Title: Improving Generalization of Adapter-Based Cross-lingual Transfer with
Scheduled Unfreezing
- Title(参考訳): スケジュールアンフリーズによるアダプタ型言語間転送の一般化
- Authors: Chen Cecilia Liu, Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych
- Abstract要約: 言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験では, 完全微調整に近づき, 最先端のトランスファー性能を達成するために, 凍結を予定しない手法が提案されている。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.61357092724624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard fine-tuning of language models typically performs well on
in-distribution data, but suffers with generalization to distribution shifts.
In this work, we aim to improve generalization of adapter-based cross-lingual
task transfer where such cross-language distribution shifts are imminent. We
investigate scheduled unfreezing algorithms -- originally proposed to mitigate
catastrophic forgetting in transfer learning -- for fine-tuning task adapters
in cross-lingual transfer. Our experiments show that scheduled unfreezing
methods close the gap to full fine-tuning and achieve state-of-the-art transfer
performance, suggesting that these methods can go beyond just mitigating
catastrophic forgetting. Next, aiming to delve deeper into those empirical
findings, we investigate the learning dynamics of scheduled unfreezing using
Fisher Information. Our in-depth experiments reveal that scheduled unfreezing
induces different learning dynamics compared to standard fine-tuning, and
provide evidence that the dynamics of Fisher Information during training
correlate with cross-lingual generalization performance. We additionally
propose a general scheduled unfreezing algorithm that achieves an average of 2
points improvement over four datasets compared to standard fine-tuning and
provides strong empirical evidence for a theory-based justification of the
heuristic unfreezing schedule (i.e., the heuristic schedule is implicitly
maximizing Fisher Information). Our code will be publicly available.
- Abstract(参考訳): 言語モデルの標準的な微調整は、典型的には分散データでうまく機能するが、分布シフトへの一般化に苦しむ。
本研究では,このような言語間分散シフトが差し迫った場合,アダプタベースの言語間タスク転送の一般化を目標とする。
本研究では,言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験により, 連続凍結法が完全微調整のギャップを埋め, 最先端のトランスファー性能を達成することを示し, 破滅的な忘れ込みを緩和するだけでなく, これらの手法が適用可能であることを示唆した。
次に,これらの経験的知見を深く掘り下げるために,フィッシャー情報を用いた未凍結の学習動態について検討する。
詳細な実験により,スケジュール未凍結は通常の微調整と比較して異なる学習力学を誘導し,訓練中のフィッシャー情報のダイナミクスが言語間一般化性能と相関していることを示す。
さらに,4つのデータセットに対して平均2点改善を実現する一般的なスケジュール凍結アルゴリズムを提案し,ヒューリスティック凍結スケジュール(ヒューリスティックスケジュールは暗黙的にフィッシャー情報を最大化する)の理論に基づく正当化のための強力な実証的証拠を提供する。
私たちのコードは公開されます。
関連論文リスト
- Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Surgical Fine-Tuning Improves Adaptation to Distribution Shifts [114.17184775397067]
分散シフト下での伝達学習の一般的なアプローチは、事前訓練されたモデルの最後の数層を微調整することである。
本稿は, 階層のサブセットを選択的に微調整する手法が, 一般的に用いられている微調整手法と一致し, 性能が良くないことを示す。
論文 参考訳(メタデータ) (2022-10-20T17:59:15Z) - "Diversity and Uncertainty in Moderation" are the Key to Data Selection
for Multilingual Few-shot Transfer [13.268758633770595]
本稿では,アノテーションのためのデータ選択手法について検討する。
提案手法は,$n$-gram言語モデルを用いたデータエントロピー,予測エントロピー,勾配埋め込みなどの複数の尺度に依存する。
実験により、勾配と損失埋め込みに基づく戦略は、ランダムなデータ選択ベースラインを一貫して上回ることが示された。
論文 参考訳(メタデータ) (2022-06-30T04:22:27Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。