論文の概要: Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
- arxiv url: http://arxiv.org/abs/2507.07129v1
- Date: Tue, 08 Jul 2025 20:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.130842
- Title: Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
- Title(参考訳): 成長変圧器:凍結基板上のモジュール組成と層ワイズ展開
- Authors: A. Bochkov,
- Abstract要約: 本稿では,非学習可能で決定論的な入力埋め込みの基礎の上に構築された,モデル開発のための代替的,建設的なアプローチについて検討する。
異なるデータセットでトレーニングされたスペシャリストモデルは、単一のより有能なMixture-of-Expertsモデルにマージ可能であることを示す。
そこで我々は,深層トランスフォーマーを段階的に積み重ねて,一度に1つのレイヤをトレーニングすることで,階層的に構築的なトレーニング手法を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing paradigm for scaling large language models (LLMs) involves monolithic, end-to-end training, a resource-intensive process that lacks flexibility. This paper explores an alternative, constructive approach to model development, built upon the foundation of non-trainable, deterministic input embeddings. In prior [1], we established that high-level semantic reasoning can emerge in Transformers using frozen embeddings derived from the visual structure of Unicode glyphs. Here, we demonstrate that this fixed representational substrate acts as a universal "docking port," enabling two powerful and efficient scaling paradigms: seamless modular composition and progressive layer-wise growth. First, we show that specialist models trained on disparate datasets (e.g., Russian and Chinese text) can be merged into a single, more capable Mixture-of-Experts (MoE) model, post-training, with zero architectural modification. This is achieved by simply averaging their output logits. The resulting MoE model exhibits immediate performance improvements on reasoning benchmarks like MMLU, surpassing its constituent experts without catastrophic forgetting. Second, we introduce a layer-wise constructive training methodology, where a deep Transformer is "grown" by progressively stacking and training one layer at a time. This method demonstrates stable convergence and a clear correlation between model depth and the emergence of complex reasoning abilities, such as those required for SQuAD. Our findings suggest a paradigm shift from monolithic optimization towards a more biological or constructive model of AI development, where complexity is built incrementally and modules can be composed freely. This opens new avenues for resource-efficient scaling, continual learning, and a more democratized ecosystem for building powerful AI systems. We release all code and models to facilitate further research.
- Abstract(参考訳): 大規模言語モデル(LLM)をスケールするための一般的なパラダイムは、柔軟性に欠けるリソース集約プロセスであるモノリシックなエンドツーエンドのトレーニングである。
本稿では,非学習可能で決定論的な入力埋め込みの基礎の上に構築された,モデル開発のための代替的,建設的なアプローチについて検討する。
先行[1]では、Unicodeグリフの視覚構造から派生した凍結埋め込みを用いて、トランスフォーマーに高レベルな意味推論が出現することを確立した。
ここでは、この固定表現基板が普遍的な「ドッキングポート」として機能し、シームレスなモジュラー合成とプログレッシブ層ワイド成長という、2つのパワフルで効率的なスケーリングパラダイムを実現することを実証する。
まず、異なるデータセット(例えば、ロシア語と中国語のテキスト)で訓練されたスペシャリストモデルを単一の、より有能なMixture-of-Experts(MoE)モデルにマージできることを示す。
これは、出力ログを単に平均化することで達成される。
結果として得られたMoEモデルは、MMLUのような推論ベンチマークに対する即時のパフォーマンス向上を示し、破滅的な忘れをせずに構成専門家を超越している。
第2に,深層トランスフォーマーを段階的に積み重ねて,一度に1つのレイヤをトレーニングすることで,階層的に構築的なトレーニング手法を導入する。
本手法は, モデル深度とSQuADに必要な複雑な推論能力の出現との間には, 安定した収束と明確な相関関係を示す。
この結果から,モノリシックな最適化から,複雑性を段階的に構築し,モジュールを自由に構成可能な,より生物学的あるいは建設的なAI開発モデルへのパラダイムシフトが示唆された。
これにより、リソース効率の高いスケーリング、継続的な学習、強力なAIシステムを構築するためのより民主化されたエコシステムに対する新たな道が開かれる。
さらなる研究を促進するために、すべてのコードとモデルをリリースします。
関連論文リスト
- Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows [46.673228292287895]
本稿では,連続表現のモデル化にトランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークを提案する。
このアプローチは大きな柔軟性を解放し、グローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にします。
離散データによって形成される潜在空間内の複雑な依存関係をキャプチャする混合結合変換を提案する。
論文 参考訳(メタデータ) (2025-07-01T04:51:25Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。