論文の概要: Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
- arxiv url: http://arxiv.org/abs/2507.07129v2
- Date: Tue, 04 Nov 2025 18:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.365215
- Title: Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate
- Title(参考訳): 成長変圧器:凍結基板上のモジュール組成と層ワイズ展開
- Authors: A. Bochkov,
- Abstract要約: 大規模言語モデル(LLM)をスケールするための一般的なパラダイムは、モノリシックなエンドツーエンドのトレーニングである。
本稿では,トランスフォーマーにおける創発的意味論の原理によって実現された,代替的,建設的なスケーリングパラダイムについて考察する。
私たちはこれを、初期段階の厳密な層凍結とモデルスタック全体の効率的で総合的な微調整を組み合わせた、階層的に構築的な手法で運用します。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevailing paradigm for scaling large language models (LLMs) involves monolithic, end-to-end training, a resource-intensive process that lacks flexibility. This paper explores an alternative, constructive scaling paradigm, enabled by the principle of emergent semantics in Transformers with frozen, non-semantic input embeddings. We posit that because high-level meaning is a compositional property of a Transformer's deep layers, not its input vectors, the embedding layer and trained lower layers can serve as a fixed foundation. This liberates backpropagation to focus solely on newly added components, making incremental growth viable. We operationalize this with a layer-wise constructive methodology that combines strict layer freezing in early stages with efficient, holistic fine-tuning of the entire model stack via low-rank adaptation (LoRA) as complexity increases. This method not only demonstrates stable convergence but also reveals a direct correlation between model depth and the emergence of complex reasoning abilities, such as those required for SQuAD, which are absent in shallower models. In a controlled study, our constructively grown model rivals the performance of a monolithically trained baseline of the same size, validating the efficiency and efficacy of the approach. Our findings suggest a path towards a paradigm shift from monolithic optimization towards a more biological or constructive model of AI development. This opens a path for more resource-efficient scaling, continual learning, and a more modular approach to building powerful AI systems. We release all code and models to facilitate further research.
- Abstract(参考訳): 大規模言語モデル(LLM)をスケールするための一般的なパラダイムは、柔軟性に欠けるリソース集約プロセスであるモノリシックなエンドツーエンドのトレーニングである。
本稿では,凍結した非意味的な入力埋め込みを持つトランスフォーマーにおける創発的セマンティクスの原理によって実現された,代替的,建設的なスケーリングパラダイムについて検討する。
高レベルの意味は入力ベクトルではなく、トランスフォーマーの深い層の構成特性であるから、埋め込み層と訓練された下層は固定基盤として機能する、と仮定する。
これによってバックプロパゲーションが解放され、新たに追加されたコンポーネントのみに焦点が当てられるようになり、漸進的な成長が実現できます。
複雑性が増大するにつれて、モデルスタック全体の効率的で包括的な微調整を低ランク適応(LoRA)を通じて行うことで、初期段階における厳密な層凍結と組み合わせたレイヤワイドな構成手法でこれを運用する。
この手法は、安定収束を示すだけでなく、モデル深度とより浅いモデルでは欠落しているSQuADのような複雑な推論能力の出現との直接的な相関も示している。
制御された研究において, 構造的に成長したモデルは同じ大きさのモノリシックに訓練されたベースラインの性能に匹敵し, アプローチの有効性と有効性を検証した。
我々の研究結果は、モノリシックな最適化から、より生物学的あるいは建設的なAI開発モデルへのパラダイムシフトへの道のりを示唆している。
これにより、よりリソース効率のよいスケーリング、継続的な学習、強力なAIシステム構築のためのよりモジュール化されたアプローチの道が開かれる。
さらなる研究を促進するために、すべてのコードとモデルをリリースします。
関連論文リスト
- Flexible Language Modeling in Continuous Space with Transformer-based Autoregressive Flows [46.673228292287895]
本稿では,連続表現のモデル化にトランスフォーマーに基づく自己回帰正規化フローを用いた新しいフレームワークを提案する。
このアプローチは大きな柔軟性を解放し、グローバルな双方向コンテキストをキャプチャ可能なモデルの構築を可能にします。
離散データによって形成される潜在空間内の複雑な依存関係をキャプチャする混合結合変換を提案する。
論文 参考訳(メタデータ) (2025-07-01T04:51:25Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。