論文の概要: Sequential Reptile: Inter-Task Gradient Alignment for Multilingual
Learning
- arxiv url: http://arxiv.org/abs/2110.02600v1
- Date: Wed, 6 Oct 2021 09:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 01:56:04.658061
- Title: Sequential Reptile: Inter-Task Gradient Alignment for Multilingual
Learning
- Title(参考訳): sequence reptile: 多言語学習のためのタスク間勾配アライメント
- Authors: Seanie Lee, Hae Beom Lee, Juho Lee, Sung Ju Hwang
- Abstract要約: 知識伝達を最大化するためには,タスク間の勾配の整合が不可欠であることを示す。
本稿では,タスク間の勾配を効率よく調整する,シンプルで効果的な手法を提案する。
様々なマルチタスク学習やゼロショット言語間移動タスクにおいて,提案手法を広範囲に検証する。
- 参考スコア(独自算出の注目度): 61.29879000628815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual models jointly pretrained on multiple languages have achieved
remarkable performance on various multilingual downstream tasks. Moreover,
models finetuned on a single monolingual downstream task have shown to
generalize to unseen languages. In this paper, we first show that it is crucial
for those tasks to align gradients between them in order to maximize knowledge
transfer while minimizing negative transfer. Despite its importance, the
existing methods for gradient alignment either have a completely different
purpose, ignore inter-task alignment, or aim to solve continual learning
problems in rather inefficient ways. As a result of the misaligned gradients
between tasks, the model suffers from severe negative transfer in the form of
catastrophic forgetting of the knowledge acquired from the pretraining. To
overcome the limitations, we propose a simple yet effective method that can
efficiently align gradients between tasks. Specifically, we perform each
inner-optimization by sequentially sampling batches from all the tasks,
followed by a Reptile outer update. Thanks to the gradients aligned between
tasks by our method, the model becomes less vulnerable to negative transfer and
catastrophic forgetting. We extensively validate our method on various
multi-task learning and zero-shot cross-lingual transfer tasks, where our
method largely outperforms all the relevant baselines we consider.
- Abstract(参考訳): 複数の言語で事前訓練された多言語モデルは、様々な多言語ダウンストリームタスクにおいて顕著な性能を達成した。
さらに、単一の単言語下流タスクで微調整されたモデルでは、見当たらない言語に一般化することが示されている。
本稿では, 負の伝達を最小化しつつ, 知識伝達を最大化するために, それらの間の勾配を調整することが重要であることを示す。
その重要性にもかかわらず、既存のグラデーションアライメントの方法は、全く異なる目的を持つか、タスク間のアライメントを無視するか、あるいはより非効率な方法で連続的な学習問題を解決することを目的としている。
タスク間の不整合勾配の結果、モデルは事前学習から得られた知識を壊滅的に忘れてしまうという形で深刻な負の移動に苦しむ。
制約を克服するために,タスク間の勾配を効率的に調整できる簡易かつ効果的な手法を提案する。
具体的には,すべてのタスクからバッチを順次サンプリングして各内部最適化を行い,その後に外付け更新を行う。
本手法では,タスク間の勾配の一致により,負の移動や破滅的な忘れ込みに対してモデルが脆弱になる。
我々は,様々なマルチタスク学習およびゼロショット言語間転送タスクにおいて,提案手法を広範囲に検証した。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - TaskMix: Data Augmentation for Meta-Learning of Spoken Intent
Understanding [0.0]
本稿では,タスクの多様性が低い場合のオーバーフィッティングという問題を,最先端のデータ拡張手法により悪化させることを示す。
本稿では,既存のタスクを線形に補間することで,新しいタスクを合成する簡単なTaskMixを提案する。
TaskMixはベースラインを上回り、タスクの多様性が低い場合の過度な適合を軽減し、高い場合でも性能が低下しないことを示す。
論文 参考訳(メタデータ) (2022-09-26T00:37:40Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。