論文の概要: One-stop Training of Multiple Capacity Models
- arxiv url: http://arxiv.org/abs/2305.14066v2
- Date: Wed, 24 May 2023 09:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:55:20.531814
- Title: One-stop Training of Multiple Capacity Models
- Title(参考訳): マルチキャパシティモデルのワンストップ訓練
- Authors: Lan Jiang, Haoyang Huang, Dongdong Zhang, Rui Jiang, Furu Wei
- Abstract要約: 本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
- 参考スコア(独自算出の注目度): 74.87789190840527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training models with varying capacities can be advantageous for deploying
them in different scenarios. While high-capacity models offer better
performance, low-capacity models require fewer computing resources for training
and inference. In this work, we propose a novel one-stop training framework to
jointly train high-capacity and low-capactiy models. This framework consists of
two composite model architectures and a joint training algorithm called
Two-Stage Joint-Training (TSJT). Unlike knowledge distillation, where multiple
capacity models are trained from scratch separately, our approach integrates
supervisions from different capacity models simultaneously, leading to faster
and more efficient convergence. Extensive experiments on the multilingual
machine translation benchmark WMT10 show that our method outperforms
low-capacity baseline models and achieves comparable or better performance on
high-capacity models. Notably, the analysis demonstrates that our method
significantly influences the initial training process, leading to more
efficient convergence and superior solutions.
- Abstract(参考訳): さまざまな能力を持つトレーニングモデルは、異なるシナリオにデプロイする上で有利である。
高容量モデルはより良いパフォーマンスを提供するが、低容量モデルはトレーニングと推論のために計算リソースを少なくする。
本研究では,高容量・低容量モデルの共同学習のためのワンストップトレーニングフレームワークを提案する。
このフレームワークは、2つの複合モデルアーキテクチャと、TSJT(Two-Stage Joint-Training)と呼ばれるジョイントトレーニングアルゴリズムで構成されている。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合し、より高速で効率的な収束をもたらす。
マルチリンガル機械翻訳ベンチマークWMT10の大規模な実験により,本手法は低容量ベースラインモデルより優れ,高容量モデルでは同等あるいは優れた性能が得られることが示された。
特に,本手法が初期訓練過程に大きな影響を与え,より効率的な収束と優れた解法が導かれることを示した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。
このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。
プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。
実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - MSfusion: A Dynamic Model Splitting Approach for Resource-Constrained Machines to Collaboratively Train Larger Models [16.012249716875132]
我々は,資源制約マシン上で大規模モデルを学習するための,効果的かつ効率的な協調学習フレームワークであるMSfusionを紹介する。
各トレーニングラウンドでは、各参加者は、ローカルデータをトレーニングするためにモデルパラメータのサブセットを割り当て、共通のパラメータ上の他のピアのサブモデルで集約される。
画像およびNLPタスクの実験は、大規模モデルのトレーニングにおいて、MSfusionの性能と効率において重要な利点を示す。
論文 参考訳(メタデータ) (2024-07-04T04:06:24Z) - A Multi-Level Framework for Accelerating Training Transformer Models [5.268960238774481]
大規模ディープラーニングモデルの訓練は、コンピューティングパワーに対する前例のない需要をもたらしている。
本稿では,Coalescing, De-Coalescing, Interpolation に基づく,加速度のトレーニングのためのマルチレベルフレームワークを提案する。
提案手法は,BERT/GPT-Baseモデルのトレーニングにおいて約20%,BERT-Largeモデルのトレーニングにおいて最大51.6%のコスト削減を実現する。
論文 参考訳(メタデータ) (2024-04-07T03:04:34Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。