論文の概要: Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training
- arxiv url: http://arxiv.org/abs/2212.10503v2
- Date: Tue, 4 Jul 2023 19:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 23:26:16.399304
- Title: Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training
- Title(参考訳): ミニモデル適応:アライメント・アライメントによる事前学習されたモデルを新しい言語に効率的に拡張する
- Authors: Kelly Marchisio, Patrick Lewis, Yihong Chen, Mikel Artetxe
- Abstract要約: トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデルを新しい言語に拡張することができる。
我々は,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
- 参考スコア(独自算出の注目度): 36.5936227129021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work shows that it is possible to expand pretrained Masked Language
Models (MLMs) to new languages by learning a new set of embeddings, while
keeping the transformer body frozen. Despite learning a small subset of
parameters, this approach is not compute-efficient, as training the new
embeddings requires a full forward and backward pass over the entire model. We
propose mini-model adaptation, a compute-efficient alternative that builds a
shallow mini-model from a fraction of a large model's parameters. New
language-specific embeddings can then be efficiently trained over the
mini-model and plugged into the aligned large model for rapid cross-lingual
transfer. We explore two approaches to learn mini-models: MiniJoint, which
jointly pretrains the primary model and the mini-model using a single
transformer with a secondary MLM head at a middle layer; and MiniPost, where we
start from a regular pretrained model, build a mini-model by extracting and
freezing a few layers, and learn a small number of parameters on top.
Experiments on XNLI, MLQA and PAWS-X show that mini-model adaptation matches
the performance of the standard approach using 2.3x less compute on average.
- Abstract(参考訳): 以前の研究は、トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデル(MLM)を新しい言語に拡張できることを示していた。
パラメータの小さなサブセットを学習しても、新しい埋め込みをトレーニングするためには、モデル全体を完全な前方と後方にパスする必要があるため、このアプローチは計算効率が良くない。
大規模モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率のよい代替案であるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
minijointは、中間層にmlmヘッドを持つ1つのトランスフォーマを使用して、プライマリモデルとミニモデルを事前学習し、minipostは、通常の事前トレーニングされたモデルから開始し、いくつかのレイヤを抽出・凍結することでミニモデルを構築し、その上に少数のパラメータを学習する。
XNLI、MLQA、PAWS-Xの実験では、ミニモデル適応は平均2.3倍の計算量で標準手法のパフォーマンスと一致している。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization [22.90653167145603]
本稿では,事前学習した言語モデルのパラメータを,隠れ次元が増大する大規模モデルのパラメータに拡張する手法であるHyperCloningを紹介する。
結果として、より大きなモデルは、トレーニングを開始する前に、より小さなモデルの予測能力と精度をすでに継承している。
論文 参考訳(メタデータ) (2024-09-19T16:50:26Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。