Fugu-MT 論文翻訳(概要): Inheritune: Training Smaller Yet More Attentive Language Models

論文の概要: Inheritune: Training Smaller Yet More Attentive Language Models

arxiv url: http://arxiv.org/abs/2404.08634v2
Date: Fri, 04 Oct 2024 05:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 17:50:50.590391
Title: Inheritune: Training Smaller Yet More Attentive Language Models
Title（参考訳）: Inheritune: より小さな、より注意深い言語モデルのトレーニング
Authors: Sunny Sanyal, Ravid Shwartz-Ziv, Alexandros G. Dimakis, Sujay Sanghavi,
Abstract要約: Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。 Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
参考スコア（独自算出の注目度）: 61.363259848264725
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable performance across various natural language processing tasks, primarily due to the transformer architecture and its self-attention mechanism. However, we observe that in standard decoder-style LLMs, attention matrices degenerate to single-column for deeper layers. Layers in this state are unable to learn anything meaningful and mostly redundant; we refer to these as lazy layers. The goal of this paper is to train smaller models by eliminating this structural inefficiency without compromising performance. Motivated by this observation, we propose Inheritune, a simple yet effective training recipe for developing smaller, high-performing language models. Smaller models trained with Inheritune, inherit early transformer layers from a larger pre-trained model, then retrain and progressively expand until they match or exceed the performance of the larger model. We demonstrate that Inheritune enables the training of various sizes of GPT-2 models on datasets like OpenWebText-9B and FineWeb_edu. Models trained with Inheritune, despite having significantly fewer layers, match or even surpass the performance of their larger counterparts. For instance, our 16-layer GPT-2 medium variant achieves comparable performance to the standard 24-layer GPT-2 medium model. Code is available at https://github.com/sanyalsunny111/LLM-Inheritune.
Abstract（参考訳）: 大規模言語モデル (LLM) は、トランスフォーマーアーキテクチャとその自己保持機構によって、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。しかし、標準デコーダスタイルのLCMでは、より深い層に対して、注意行列が単一カラムに縮退する。この状態のレイヤは、意味があり、ほとんど冗長なものを学ぶことができません。本研究の目的は、性能を損なうことなく、この構造的非効率性を排除し、より小さなモデルを訓練することである。そこで本研究では,より小型で高性能な言語モデルを開発するための,シンプルかつ効果的なトレーニングレシピであるInherituneを提案する。より小さなモデルはInherituneで訓練され、より大きな事前訓練されたモデルから初期のトランスフォーマー層を継承し、その後、より大きなモデルのパフォーマンスに適合または超えるまで再訓練し、徐々に拡大する。 Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。 Inherituneでトレーニングされたモデルは、レイヤーが大幅に少なかったにもかかわらず、より大きなモデルの性能にマッチしたり、上回ったりさえした。例えば16層のGPT-2媒質は標準の24層のGPT-2媒質モデルに匹敵する性能を発揮する。コードはhttps://github.com/sanyalsunny111/LLM-Inherituneで公開されている。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。 PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-28T15:27:57Z)
Evolving Subnetwork Training for Large Language Models [19.54861230097017]
我々は、新しいトレーニングパラダイム、Evolving Subnetwork Training (EST)を提案する。 ESTサンプルは、大きな言語モデルのレイヤから、そして各レイヤで一般的に使用されるモジュールから作成される。 GPT2モデルのトレーニングとTinyLlamaモデルのトレーニングにESTを適用した結果,GPT2の26.7%のFLOPとTinyLlamaの25.0%の削減を実現した。
論文参考訳（メタデータ） (2024-06-11T05:44:56Z)
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T17:04:18Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Enhancing Cross-Category Learning in Recommendation Systems with Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。 MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文参考訳（メタデータ） (2023-09-27T09:32:10Z)
Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文参考訳（メタデータ） (2023-03-09T13:42:04Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文参考訳（メタデータ） (2021-06-22T13:20:14Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。その結果,メモリフットプリントの精度が向上し,dを4～8倍削減できることがわかった。
論文参考訳（メタデータ） (2020-06-10T02:47:40Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。