Fugu-MT 論文翻訳(概要): 2x Faster Language Model Pre-training via Masked Structural Growth

論文の概要: 2x Faster Language Model Pre-training via Masked Structural Growth

arxiv url: http://arxiv.org/abs/2305.02869v1
Date: Thu, 4 May 2023 14:28:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 15:14:07.082018
Title: 2x Faster Language Model Pre-training via Masked Structural Growth
Title（参考訳）: マスク構造成長による2倍高速言語モデル事前学習
Authors: Yiqun Yao, Zheng Zhang, Jing Li, and Yequan Wang
Abstract要約: 大規模言語モデルの事前学習の加速は、現在のNLP研究において重要な問題である。本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。
参考スコア（独自算出の注目度）: 10.369603261844595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Acceleration of large language model pre-training is a critical issue in present NLP research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems related to progressive growth: growth schedule and growth operator. For growth schedule, existing work has explored multi-stage expansion of depth and feedforward layers. However, the impact of each dimension on the schedule's efficiency is still an open question. For growth operator, existing work relies on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further optimization of training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including growth schedules involving all possible dimensions and strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve a speed-up of 80% for Bert-base and 120% for Bert-large pre-training. Moreover, MSG is able to improve fine-tuning performances at the same time.
Abstract（参考訳）: 大規模言語モデルの事前学習の加速は、現在のNLP研究において重要な問題である。本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。プログレッシブ成長に関連する主な研究課題は、成長スケジュールと成長オペレーターの2つである。成長スケジュールのために、既存の研究は深さ層とフィードフォワード層の多段階拡張を探求している。しかし、各次元がスケジュールの効率に与える影響はまだ未解決の問題である。成長操作者にとって、既存の作業は知識を継承するために新しい重み付けを初期化し、非制限的な関数保存のみを達成し、トレーニングダイナミクスのさらなる最適化を制限している。これらの問題に対処するため,我々は,すべての可能な次元を含む成長スケジュールや,新たな重み付けの初期化に依存しない厳密な機能保存型成長演算子を含むマスキング構造成長 (msg) を提案する。実験の結果,MSGはBert-baseで80%,Bert-largeプレトレーニングで120%の高速化を実現した。さらに、MSGは微調整性能を同時に向上させることができる。

関連論文リスト

Mitigating Catastrophic Forgetting in Continual Learning through Model Growth [3.027322177899458]
破滅的な忘れは連続的な学習において重要な課題であり、新しいタスクに微調整された場合、モデルは事前の知識を失う。この問題は、様々な領域にまたがるパフォーマンスを維持することが、その汎用性にとって重要であるため、継続学習を行う大規模言語モデルにとって特に重要である。成長に基づく事前学習が、ドメイン知識、推論、読解、バイアスを含む一連の微調整タスクにおいて、より効果的に学習能力を維持することができるかどうかを評価する。
論文参考訳（メタデータ） (2025-09-01T07:51:31Z)
Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。 DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。 DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文参考訳（メタデータ） (2025-08-01T17:56:07Z)
Scalable Graph Generative Modeling via Substructure Sequences [50.32639806800683]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。 G$2$PMはグラフインスタンス(ノード、エッジ、グラフ全体)をサブ構造のシーケンスとして表現する。それは、一般化可能かつ伝達可能な表現を学ぶために、シーケンスに関する生成的事前学習を採用する。
論文参考訳（メタデータ） (2025-05-22T02:16:34Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Cogito, ergo sum: A Neurobiologically-Inspired Cognition-Memory-Growth System for Code Generation [9.920563105290894]
Cogitoは、低コストでコード生成タスクの問題解決能力を高めるために、神経生物学的にインスパイアされたマルチエージェントフレームワークである。コギトは各段階で知識と認知スキルを蓄積し、最終的にスーパーロールをコード生成タスクを実行するためのすべての有能なエージェントとして形成する。
論文参考訳（メタデータ） (2025-01-30T01:41:44Z)
Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning [9.91929539637026]
連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。しかし、不適切なモデルの成長は、特にタスクに依存しないCLにおいて、推論のために成長したモデル全体を用いて、事前学習した知識を著しく劣化させる可能性がある。本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
論文参考訳（メタデータ） (2024-08-20T06:05:52Z)
Landscape-Aware Growing: The Power of a Little LAG [49.897766925371485]
成長戦略のプールから最適な成長戦略をどのように選択するかという課題について検討する。ランドスケープ・アウェア・グロース(LAG)と呼ぶ早期学習力学に基づく代替視点を提案する。
論文参考訳（メタデータ） (2024-06-04T16:38:57Z)
On the Scalability of GNNs for Molecular Graphs [7.402389334892391]
グラフニューラルネットワーク(GNN)は、スパース演算の効率の低下、大規模なデータ要求、さまざまなアーキテクチャの有効性の明確さの欠如など、スケールのメリットをまだ示していない。我々は,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。初めて、GNNは、深度、幅、分子数、ラベルの数、事前訓練データセットの多様性の増大によって、非常に恩恵を受けることを観察した。
論文参考訳（メタデータ） (2024-04-17T17:11:31Z)
TaE: Task-aware Expandable Representation for Long Tail Class Incremental Learning [42.630413950957795]
本稿では,各タスクから多様な表現を学習するための新しいタスク対応拡張(TaE)フレームワークを提案する。 TaEは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-08T16:37:04Z)
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training [78.63699436330165]
クロスモーダルな事前トレーニングは、幅広い下流タスクで顕著なパフォーマンスを示している。オンラインデータは絶えず成長しており、継続的に成長しているデータから学習する事前訓練されたモデルの重要性を強調している。我々は,連続した画像とテキストのペアを入力として,コントラスト言語画像の事前学習のための,データ駆動型自動モデル生成アルゴリズムであるGrowCLIPを提案する。
論文参考訳（メタデータ） (2023-08-22T10:07:49Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文参考訳（メタデータ） (2022-03-11T19:05:42Z)
On the Transformer Growth for Progressive BERT Training [37.57617077192438]
ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
論文参考訳（メタデータ） (2020-10-23T17:44:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。