論文の概要: Improving Generalization of Adapter-Based Cross-lingual Transfer with
Scheduled Unfreezing
- arxiv url: http://arxiv.org/abs/2301.05487v1
- Date: Fri, 13 Jan 2023 11:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:37:12.590461
- Title: Improving Generalization of Adapter-Based Cross-lingual Transfer with
Scheduled Unfreezing
- Title(参考訳): スケジュールアンフリーズによるアダプタ型言語間転送の一般化
- Authors: Chen Cecilia Liu, Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych
- Abstract要約: 言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験では, 完全微調整に近づき, 最先端のトランスファー性能を達成するために, 凍結を予定しない手法が提案されている。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 107.61357092724624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard fine-tuning of language models typically performs well on
in-distribution data, but suffers with generalization to distribution shifts.
In this work, we aim to improve generalization of adapter-based cross-lingual
task transfer where such cross-language distribution shifts are imminent. We
investigate scheduled unfreezing algorithms -- originally proposed to mitigate
catastrophic forgetting in transfer learning -- for fine-tuning task adapters
in cross-lingual transfer. Our experiments show that scheduled unfreezing
methods close the gap to full fine-tuning and achieve state-of-the-art transfer
performance, suggesting that these methods can go beyond just mitigating
catastrophic forgetting. Next, aiming to delve deeper into those empirical
findings, we investigate the learning dynamics of scheduled unfreezing using
Fisher Information. Our in-depth experiments reveal that scheduled unfreezing
induces different learning dynamics compared to standard fine-tuning, and
provide evidence that the dynamics of Fisher Information during training
correlate with cross-lingual generalization performance. We additionally
propose a general scheduled unfreezing algorithm that achieves an average of 2
points improvement over four datasets compared to standard fine-tuning and
provides strong empirical evidence for a theory-based justification of the
heuristic unfreezing schedule (i.e., the heuristic schedule is implicitly
maximizing Fisher Information). Our code will be publicly available.
- Abstract(参考訳): 言語モデルの標準的な微調整は、典型的には分散データでうまく機能するが、分布シフトへの一般化に苦しむ。
本研究では,このような言語間分散シフトが差し迫った場合,アダプタベースの言語間タスク転送の一般化を目標とする。
本研究では,言語間移動における微調整タスクアダプタの非凍結アルゴリズムについて検討した。
実験により, 連続凍結法が完全微調整のギャップを埋め, 最先端のトランスファー性能を達成することを示し, 破滅的な忘れ込みを緩和するだけでなく, これらの手法が適用可能であることを示唆した。
次に,これらの経験的知見を深く掘り下げるために,フィッシャー情報を用いた未凍結の学習動態について検討する。
詳細な実験により,スケジュール未凍結は通常の微調整と比較して異なる学習力学を誘導し,訓練中のフィッシャー情報のダイナミクスが言語間一般化性能と相関していることを示す。
さらに,4つのデータセットに対して平均2点改善を実現する一般的なスケジュール凍結アルゴリズムを提案し,ヒューリスティック凍結スケジュール(ヒューリスティックスケジュールは暗黙的にフィッシャー情報を最大化する)の理論に基づく正当化のための強力な実証的証拠を提供する。
私たちのコードは公開されます。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Headless Language Models: Learning without Predicting with Contrastive
Weight Tying [0.11510009152620666]
言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
論文 参考訳(メタデータ) (2023-09-15T12:20:00Z) - Unsupervised Unlearning of Concept Drift with Autoencoders [5.41354952642957]
コンセプトドリフトは、将来のサンプルのデータストリームに影響を与えるデータ分散の変化を指す。
本稿では,世界レベルでの教師なしおよびモデルに依存しないドリフト適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T14:52:49Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。