論文の概要: FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing
- arxiv url: http://arxiv.org/abs/2301.05487v2
- Date: Thu, 4 Apr 2024 07:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 20:51:59.063392
- Title: FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing
- Title(参考訳): FUN with Fisher: スケジューリング凍結による適応型言語間移動の一般化の改善
- Authors: Chen Cecilia Liu, Jonas Pfeiffer, Ivan Vulić, Iryna Gurevych,
- Abstract要約: 微調整タスクアダプタのためのスケジュール付き凍結アルゴリズムについて検討する。
実験により, 完全微調整に近づき, 言語間移動性能が向上した。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 60.629222280633606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard fine-tuning of language models typically performs well on in-distribution data, but suffers with generalization to distribution shifts. In this work, we aim to improve the generalization of adapter-based cross-lingual task transfer where such cross-language distribution shifts are imminent. We investigate scheduled unfreezing algorithms -- originally proposed to mitigate catastrophic forgetting in transfer learning -- for fine-tuning task adapters. Our experiments show that scheduled unfreezing methods close the gap to full fine-tuning and achieve stronger cross-lingual transfer performance, suggesting that these methods can go beyond just mitigating catastrophic forgetting. Next, aiming to understand these empirical findings, we investigate the learning dynamics of scheduled unfreezing using Fisher Information. Our experiments reveal that scheduled unfreezing induces different learning dynamics compared to standard fine-tuning, and provide evidence that the dynamics of Fisher Information during training correlate with cross-lingual generalization performance. We additionally propose a general scheduled unfreezing algorithm that achieves an average of 2 points improvement over four datasets compared to standard fine-tuning and provides empirical evidence for a theory-based justification of the heuristic unfreezing schedule for adapter training.
- Abstract(参考訳): 言語モデルの標準的な微調整は、典型的には分散データでうまく機能するが、分布シフトへの一般化に苦しむ。
本研究では,このような言語間分布の変化が差し迫った場合,アダプタベースの言語間タスク転送の一般化を目標とする。
我々は,タスクアダプターの微調整を行うために,当初提案されていた非凍結アルゴリズムについて検討した。
実験により, スケジュールされた凍結解凍法は, 完全微調整のギャップを埋め, 言語間移動性能を向上し, 破滅的忘れを緩和するだけでなく, 破滅的忘れ込みを軽減できることが示唆された。
次に,これらの経験的知見を理解することを目的として,フィッシャー情報を用いた未凍結の学習動態について検討する。
実験の結果,スケジュールされた凍結は通常の微調整と比較して異なる学習力学を誘導し,訓練中のフィッシャー情報のダイナミクスが言語間一般化性能と相関していることを示す。
さらに,通常の微調整と比較して,4つのデータセットに対して平均2点改善を達成し,ヒューリスティックな非凍結スケジュールの正当性に関する実証的な証拠を提供する,一般的な非凍結アルゴリズムを提案する。
関連論文リスト
- Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。
モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文 参考訳(メタデータ) (2024-06-20T05:18:37Z) - Headless Language Models: Learning without Predicting with Contrastive
Weight Tying [0.11510009152620666]
言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。
確率予測から脱却し、コンストラッシブウェイトタイリング(CWT)を介してコントラッシブな方法で入力埋め込みを再構築することに焦点を当てた革新的な手法を提案する。
同様の計算予算における古典的 LM と比較して, 有意な +1.6 GLUE スコアの増加と, 顕著な +2.7 LAMBADA の精度向上が観察された。
論文 参考訳(メタデータ) (2023-09-15T12:20:00Z) - Unsupervised Unlearning of Concept Drift with Autoencoders [5.41354952642957]
コンセプトドリフトは、将来のサンプルのデータストリームに影響を与えるデータ分散の変化を指す。
本稿では,世界レベルでの教師なしおよびモデルに依存しないドリフト適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T14:52:49Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。