論文の概要: Hyperparameter Transfer with Mixture-of-Expert Layers
- arxiv url: http://arxiv.org/abs/2601.20205v1
- Date: Wed, 28 Jan 2026 03:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.745294
- Title: Hyperparameter Transfer with Mixture-of-Expert Layers
- Title(参考訳): 混合実験層を用いたハイパーパラメータ移動
- Authors: Tianze Jiang, Blake Bordelon, Cengiz Pehlevan, Boris Hanin,
- Abstract要約: 現代のニューラルネットワークをスケールアップするための重要なツールとして、Mixture-of-Experts(MoE)層が登場した。
モデル幅,深さ,専門家の数,(隠れた)サイズを拡大する際,MoE層を有するトランスフォーマーモデルのパラメータ化を提案する。
- 参考スコア(独自算出の注目度): 51.03005470884366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) layers have emerged as an important tool in scaling up modern neural networks by decoupling total trainable parameters from activated parameters in the forward pass for each token. However, sparse MoEs add complexity to training due to (i) new trainable parameters (router weights) that, like all other parameter groups, require hyperparameter (HP) tuning; (ii) new architecture scale dimensions (number of and size of experts) that must be chosen and potentially taken large. To make HP selection cheap and reliable, we propose a new parameterization for transformer models with MoE layers when scaling model width, depth, number of experts, and expert (hidden) size. Our parameterization is justified by a novel dynamical mean-field theory (DMFT) analysis. When varying different model dimensions trained at a fixed token budget, we find empirically that our parameterization enables reliable HP transfer across models from 51M to over 2B total parameters. We further take HPs identified from sweeping small models on a short token horizon to train larger models on longer horizons and report performant model behaviors.
- Abstract(参考訳): Mixture-of-Experts(MoE)レイヤは、各トークンのフォワードパスのアクティベートパラメータから、トレーニング可能な全パラメータを分離することで、現代的なニューラルネットワークをスケールアップするための重要なツールとして登場した。
しかし、Sparse MoEsはトレーニングの複雑さを増す
(i)他のパラメータ群と同様にハイパーパラメータ(HP)チューニングを必要とする新しいトレーニング可能なパラメータ(ルーターウェイト)
(ii) 選択され、潜在的に大きく取らなければならない新しいアーキテクチャのスケールディメンション(専門家の数とサイズ)。
我々は,HP選択を安価で信頼性の高いものにするために,モデル幅,深さ,エキスパートの数,隠れたサイズをスケーリングする際のMoE層を用いたトランスフォーマーモデルのパラメータ化を提案する。
我々のパラメータ化は、新しい力学平均場理論(DMFT)解析によって正当化される。
固定トークン予算で訓練されたモデル次元が異なる場合、パラメータ化により、51Mから2Bを超えるモデル間でのHPの信頼性が保証される。
さらに、短いトークン水平線上で小さなモデルを網羅し、より長い水平線上でより大きなモデルを訓練し、性能モデル挙動を報告するためにHPを識別する。
関連論文リスト
- Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration [40.02031646222292]
モデルサイズを小さくして最適なグローバルベースハイパーパラメータを探索し,大規模に転送する方法を示す。
実験により,大規模言語モデルにおける学習速度の大幅な向上が示された。
論文 参考訳(メタデータ) (2025-12-26T20:56:04Z) - Sparsity May Be All You Need: Sparse Random Parameter Adaptation [7.479026959617763]
アライメントとタスク適応のための大規模言語モデルの完全な微調整は、モデルのサイズが大きくなるにつれて、極めて高価になっている。
そこで本研究では,これらのモデルの微調整に必要な計算資源とメモリ資源を,モデルパラメータのすべてではなく,少数のパラメータでのみ訓練することで削減する手法を提案する。
PEFT技術がうまく機能することが本当に重要であるのは、必ずしも特定のアダプタ構造ではなく、トレーニング可能なパラメータの数である。
論文 参考訳(メタデータ) (2025-02-21T22:23:16Z) - QuIC: Quantum-Inspired Compound Adapters for Parameter Efficient Fine-Tuning [0.0]
大きなファンデーションモデルの完全な微調整は、GPUメモリとトレーニング時間を歪ませます。
量子インスパイア複合アダプタ(QuICアダプタ)について紹介する。
QuICアダプタは、ベースモデルの0.02%未満のメモリフットプリントを使用して、モデルを効果的に微調整することができる。
論文 参考訳(メタデータ) (2025-02-10T13:06:56Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。