論文の概要: Composable Sparse Fine-Tuning for Cross-Lingual Transfer
- arxiv url: http://arxiv.org/abs/2110.07560v1
- Date: Thu, 14 Oct 2021 17:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:34:33.524593
- Title: Composable Sparse Fine-Tuning for Cross-Lingual Transfer
- Title(参考訳): 言語間伝達のための合成可能なスパース微調整
- Authors: Alan Ansell, Edoardo Maria Ponti, Anna Korhonen, Ivan Vuli\'c
- Abstract要約: 事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
- 参考スコア(独自算出の注目度): 56.86192078426372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning all parameters of a pre-trained model has become the mainstream
approach for transfer learning. To increase its efficiency and prevent
catastrophic forgetting and interference, techniques like adapters and sparse
fine-tuning have been developed. Adapters are modular, as they can be combined
to adapt a model towards different facets of knowledge (e.g., dedicated
language and/or task adapters). Sparse fine-tuning is expressive, as it
controls the behavior of all model components. In this work, we introduce a new
fine-tuning method with both these desirable properties. In particular, we
learn sparse, real-valued masks based on a simple variant of the Lottery Ticket
Hypothesis. Task-specific masks are obtained from annotated data in a source
language, and language-specific masks from masked language modeling in a target
language. Both these masks can then be composed with the pre-trained model.
Unlike adapter-based fine-tuning, this method neither increases the number of
parameters at inference time nor alters the original model architecture. Most
importantly, it outperforms adapters in zero-shot cross-lingual transfer by a
large margin in a series of multilingual benchmarks, including Universal
Dependencies, MasakhaNER, and AmericasNLI. Based on an in-depth analysis, we
additionally find that sparsity is crucial to prevent both 1) interference
between the fine-tunings to be composed and 2) overfitting. We release the code
and models at https://github.com/cambridgeltl/composable-sft.
- Abstract(参考訳): 事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
効率を高め、壊滅的な忘れや干渉を防ぐため、アダプタや微調整などの技術が開発されている。
アダプタはモジュール化されており、異なる知識の面(専門言語やタスクアダプタなど)にモデルを適用するために組み合わせることができる。
すべてのモデルコンポーネントの振る舞いを制御するため、スパース微調整は表現力がある。
本稿では,これらの特性を両立させた新しい微調整手法を提案する。
特に、ロタリー・チケット仮説の単純な変種に基づいて、スパースな実数値マスクを学習する。
タスク固有のマスクは、ソース言語の注釈データと、ターゲット言語におけるマスク付き言語モデルから言語固有のマスクとから得られる。
どちらのマスクも事前訓練されたモデルで構成できる。
アダプタベースの微調整とは異なり、この手法は推論時にパラメータの数を増やしたり、元のモデルアーキテクチャを変更したりしない。
最も重要なのは、universal dependencies、 masakhaner、および americasnliを含む一連の多言語ベンチマークにおいて、ゼロショットのクロスリンガル転送においてアダプタを大きなマージンで上回っていることだ。
深度分析から、両方の予防には空間性が不可欠であることが分かる。
1)構成する微調整間の干渉及び
2) オーバーフィット。
コードとモデルはhttps://github.com/cambridgeltl/composable-sftでリリースします。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Efficient Adapter Finetuning for Tail Languages in Streaming
Multilingual ASR [44.949146169903074]
不均一な性質と異なる言語の不均衡なデータが、性能劣化を引き起こす可能性がある。
提案手法は,単語誤り率を平均12.2%,ローカライズで最大37.5%削減する。
論文 参考訳(メタデータ) (2024-01-17T06:01:16Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Hidden State Variability of Pretrained Language Models Can Guide
Computation Reduction for Transfer Learning [16.60284838029852]
我々は、どのレイヤのサブセットに適応すべきか、タスク固有の選択ができるかどうかを検討する。
本稿では,タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて,階層を選択することを提案する。
論文 参考訳(メタデータ) (2022-10-18T17:58:43Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。