Fugu-MT 論文翻訳(概要): LEMON: Lossless model expansion

論文の概要: LEMON: Lossless model expansion

arxiv url: http://arxiv.org/abs/2310.07999v1
Date: Thu, 12 Oct 2023 03:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 13:01:21.886398
Title: LEMON: Lossless model expansion
Title（参考訳）: レモン:損失のないモデル展開
Authors: Yite Wang, Jiahao Su, Hanlin Lu, Cong Xie, Tianyi Liu, Jianbo Yuan, Haibin Lin, Ruoyu Sun, Hongxia Yang
Abstract要約: ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。 LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
参考スコア（独自算出の注目度）: 43.40389747029802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling of deep neural networks, especially Transformers, is pivotal for their surging performance and has further led to the emergence of sophisticated reasoning capabilities in foundation models. Such scaling generally requires training large models from scratch with random initialization, failing to leverage the knowledge acquired by their smaller counterparts, which are already resource-intensive to obtain. To tackle this inefficiency, we present $\textbf{L}$ossl$\textbf{E}$ss $\textbf{MO}$del Expansio$\textbf{N}$ (LEMON), a recipe to initialize scaled models using the weights of their smaller but pre-trained counterparts. This is followed by model training with an optimized learning rate scheduler tailored explicitly for the scaled models, substantially reducing the training time compared to training from scratch. Notably, LEMON is versatile, ensuring compatibility with various network structures, including models like Vision Transformers and BERT. Our empirical results demonstrate that LEMON reduces computational costs by 56.7% for Vision Transformers and 33.2% for BERT when compared to training from scratch.
Abstract（参考訳）: 深層ニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急速な性能向上にとって重要であり、基礎モデルにおける洗練された推論能力の出現につながった。このようなスケーリングは、通常、ランダムな初期化でスクラッチから大規模なモデルをトレーニングする必要がある。この非効率性に取り組むために、より小さいが事前訓練されたモデルの重みを使ってスケールしたモデルを初期化するレシピである$\textbf{L}$ossl$\textbf{E}$ss$\textbf{MO}$del Expansio$\textbf{N}$ (LEMON)を示す。これに続き、最適化された学習率スケジューラによるモデルトレーニングがスケールしたモデル用に明示的に調整され、スクラッチからトレーニングする時間を大幅に削減する。特にLEMONは汎用的で、ビジョントランスフォーマーやBERTなど、さまざまなネットワーク構造との互換性を確保する。実験の結果、LEMONは視覚変換器の計算コストを56.7%削減し、BERTの33.2%をスクラッチからトレーニングした場合に削減した。

関連論文リスト

FlexRank: Nested Low-Rank Knowledge Decomposition for Adaptive Model Deployment [20.331469310989956]
重要順序付きネスト成分は事前訓練されたモデルから抽出でき、利用可能な計算予算に基づいて選択的に活性化される。このアプローチは、各予算のスクラッチからトレーニングすることなく、コストとパフォーマンスの間の優雅なトレードオフを提供する"トレインオンス、デプロイ、どこでも"のパラダイムを可能にします。
論文参考訳（メタデータ） (2026-02-02T19:01:40Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-12-09T18:57:37Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
Alternate Model Growth and Pruning for Efficient Training of Recommendation Systems [7.415129876303651]
モデルプルーニングは、冗長なパラメータを取り除いてディープニューラルネットワークの計算オーバーヘッドを削減する効果的な手法である。ビッグデータ処理の需要のため、現代のレコメンデーションシステムはモデルキャパシティにとってまだ渇望的です。トレーニング中の重量を代替して構築し、調整するためのダイナミックなトレーニングスキーム、すなわち、モデルの成長と刈り取りを提案します。
論文参考訳（メタデータ） (2021-05-04T03:14:30Z)
Performance of Transfer Learning Model vs. Traditional Neural Network in Low System Resource Environment [0.0]
我々は,テキスト分類とNERモデルのNLP応用のための,軽量トランスファー学習モデルと目的に構築されたニューラルネットワークの性能とコストを比較する。 BERT、XLNet、GPTといった最先端モデルの台頭は、転送遅延のベースモデルとして正確さと利益を高める。
論文参考訳（メタデータ） (2020-10-20T08:12:56Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。