論文の概要: Unlocking Feature Learning in Gated Delta Networks at Scale
- arxiv url: http://arxiv.org/abs/2606.04048v1
- Date: Tue, 02 Jun 2026 08:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.268151
- Title: Unlocking Feature Learning in Gated Delta Networks at Scale
- Title(参考訳): ゲート型デルタネットワークにおける大規模機能学習の解錠
- Authors: Yifeng Liu, Quanquan Gu,
- Abstract要約: 大規模言語モデルの訓練とスケーリングは膨大な計算資源を必要とする。
我々はGated Delta Networkのスケーリングルールを導出する。
言語モデル事前学習の実験により、我々の構成が安定した学習速度転送を可能にすることが確認された。
- 参考スコア(独自算出の注目度): 52.705562336559446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization ($μ$P) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.
- Abstract(参考訳): 大規模言語モデルの学習とスケーリングは膨大な計算資源を必要としており、効率的なサブクワッドラティックアーキテクチャと原則化されたハイパーパラメータチューニング手法の両方を動機付けている。
最大更新パラメトリゼーション(μ$P)は標準トランスフォーマーのゼロショットハイパーパラメータ転送を可能にしているが、線形モデル(特に構造化状態遷移と複雑なアーキテクチャを持つもの)への拡張は未定である。
Gated Delta Network のスケーリングルールは,フォワードパス,ゲーティング機構,リカレント状態ダイナミクスを通じて厳密に伝達される。
言語モデル事前学習実験により,AdamW と SGD の両モデル幅における学習速度の安定化が確認された。
関連論文リスト
- Deriving Hyperparameter Scaling Laws via Modern Optimization Theory [55.63126290312615]
線形最小化Oracle(LMO)に基づく手法の最近の一階境界について検討する。
近年の文献のバウンダリをプロキシとして扱い、異なるチューニング規則をまたいでそれらを最小化することで、学習率、運動量、バッチサイズに関するクローズドフォームのパワーロースケジュールが得られる。
本研究の結果は, 運動量とバッチサイズスケーリングの相互作用に特に注意を払っており, いくつかのスケーリング戦略によって最適性能が達成される可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-16T22:21:27Z) - $μ$pscaling small models: Principled warm starts and hyperparameter transfer [30.73409211009394]
本稿では,幅広いアーキテクチャやアーキテクチャに適用可能な,原則付きアップスケーリング手法を提案する。
本研究では,本手法が現実的なデータセットやアーキテクチャに有効であることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-11T05:37:22Z) - Beyond Static Models: Hypernetworks for Adaptive and Generalizable Forecasting in Complex Parametric Dynamical Systems [0.0]
補間ネットワーク学習のためのパラメトリックハイパーネットワーク(PHLieNet)について紹介する。
PHLieNetはパラメータ空間から非線形埋め込みへのグローバルマッピングと、推論埋め込みから動的伝播ネットワークの重みへのマッピングを同時に学習する。
観測よりもモデルの空間を補間することにより、PHLieNetはパラメータ化されたシステム挙動間のスムーズな遷移を促進する。
論文 参考訳(メタデータ) (2025-06-24T13:22:49Z) - Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Residual Pathway Priors for Soft Equivariance Constraints [44.19582621065543]
本稿では,厳密な制約をソフトな事前に変換する手法としてResidual Pathway Priors(RPP)を紹介する。
RPPは近似対称性や不特定対称性に耐性があり、対称性が正確であっても完全に制約されたモデルと同じくらい効果的である。
論文 参考訳(メタデータ) (2021-12-02T16:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。