論文の概要: Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models
- arxiv url: http://arxiv.org/abs/2010.05874v1
- Date: Mon, 12 Oct 2020 17:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:58:01.059152
- Title: Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models
- Title(参考訳): 重度多言語モデルにおけるマルチタスク最適化の検討と改善
- Authors: Zirui Wang, Yulia Tsvetkov, Orhan Firat, Yuan Cao
- Abstract要約: 本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
- 参考スコア(独自算出の注目度): 63.92643612630657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massively multilingual models subsuming tens or even hundreds of languages
pose great challenges to multi-task optimization. While it is a common practice
to apply a language-agnostic procedure optimizing a joint multilingual task
objective, how to properly characterize and take advantage of its underlying
problem structure for improving optimization efficiency remains under-explored.
In this paper, we attempt to peek into the black-box of multilingual
optimization through the lens of loss function geometry. We find that gradient
similarity measured along the optimization trajectory is an important signal,
which correlates well with not only language proximity but also the overall
model performance. Such observation helps us to identify a critical limitation
of existing gradient-based multi-task learning methods, and thus we derive a
simple and scalable optimization procedure, named Gradient Vaccine, which
encourages more geometrically aligned parameter updates for close tasks.
Empirically, our method obtains significant model performance gains on
multilingual machine translation and XTREME benchmark tasks for multilingual
language models. Our work reveals the importance of properly measuring and
utilizing language proximity in multilingual optimization, and has broader
implications for multi-task learning beyond multilingual modeling.
- Abstract(参考訳): 数十から数百の言語を仮定する多言語モデルは、マルチタスク最適化に大きな課題をもたらす。
統合多言語タスク目的を最適化する言語非依存手法を適用するのが一般的であるが、その基礎となる問題構造を適切に特徴付け、活用して最適化効率を向上させる方法は未検討のままである。
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語に近いだけでなく、全体のモデル性能と相関する。
このような観察は,既存のグラデーションに基づくマルチタスク学習手法の重要な限界を特定するのに役立ち,より幾何学的に調整されたタスクのパラメータ更新を促進する簡易かつスケーラブルな最適化手順であるgradient vaccine を導出する。
本手法は,多言語言語モデルに対して,多言語機械翻訳およびxtremeベンチマークタスクにおいて有意なモデル性能向上を実現する。
本研究は,多言語最適化における言語近接度を適切に測定し,活用することの重要性を明らかにし,多言語モデリング以上のマルチタスク学習に幅広い意味を持つ。
関連論文リスト
- No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Sequential Reptile: Inter-Task Gradient Alignment for Multilingual
Learning [61.29879000628815]
知識伝達を最大化するためには,タスク間の勾配の整合が不可欠であることを示す。
本稿では,タスク間の勾配を効率よく調整する,シンプルで効果的な手法を提案する。
様々なマルチタスク学習やゼロショット言語間移動タスクにおいて,提案手法を広範囲に検証する。
論文 参考訳(メタデータ) (2021-10-06T09:10:10Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Demystify Optimization Challenges in Multilingual Transformers [21.245418118851884]
ロスランドスケープとパラメータの可塑性の観点から最適化課題を考察する。
不均衡なトレーニングデータは、高いリソース言語と低いリソース言語の間でタスクの干渉を引き起こす。
Curvature Aware Task Scaling (CATS) を提案し、特にリソースの少ない場合の最適化と一般化の両方を改善します。
論文 参考訳(メタデータ) (2021-04-15T17:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。