論文の概要: Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
- arxiv url: http://arxiv.org/abs/2506.14794v1
- Date: Sat, 31 May 2025 18:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.681453
- Title: Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
- Title(参考訳): 専門家集会 創発的かつ適応的な振る舞いを持つキメラLLM変種を線形時間で構築する
- Authors: Henrik Klagges, Robert Dahlke, Fabian Klemm, Benjamin Merkel, Daniel Klingmann, David A. Reiss, Dan Zecha,
- Abstract要約: 既存のMixture-of-Experts親モデルの有能な子版を線形時間で作成するための「AoE」構築法。
我々は、DeepSeekのV3-0324モデルとR1モデルを組み合わせて、671BのオープンウェイトハイブリッドモデルであるDeepSeek R1T "Chimera"を構築した。
- 参考スコア(独自算出の注目度): 1.1098503592431277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Requiring $10^{13}$-$10^{15}$ FLOPs to calculate one 8 bit weight in an LLM during pretraining is extremely expensive and seems inefficient. To better leverage the huge investments made into pretrained models, we develop the new "Assembly-of-Experts" (AoE) construction method to create capable child variants of existing Mixture-of-Experts parent models in linear time. Model weight tensors get interpolated individually, allowing to enhance or suppress semantic features of the parents. Varying the proportion of weights taken from the parent models, we observe some properties of the AoE child model changing gradually, while other behavioral traits emerge with a sharp transition. Surprisingly, nearly every generated model is functional and capable, which makes searching the model space straightforward. We construct the DeepSeek R1T "Chimera", a 671B open-weights hybrid model combining DeepSeek's V3-0324 and R1 model variants. The child inherits only the routed expert tensors of R1, but still achieves about R1-level intelligence. At the same time, it uses about 40\% fewer output tokens, close to V3 speed. Constructed without any fine-tuning or distillation, the Chimera exhibits surprisingly compact, orderly reasoning compared to its parent models.
- Abstract(参考訳): 10^{13}$-$10^{15}$ FLOPs は、プレトレーニング中に LLM の 8 ビットの重みを計算するのに非常に高価であり、効率が悪いように見える。
既存のMixture-of-Experts親モデルに線形時間で有能な子版を作成するために,事前学習モデルへの多大な投資をうまく活用するために,新しいAoE(Assembly-of-Experts)構築法を開発した。
モデルウェイトテンソルは個別に補間され、親のセマンティックな特徴を増強または抑制することができる。
親モデルから得られた重みの比率を考慮し,AoE子モデルの特性が徐々に変化するのに対して,他の行動特性は急激な遷移とともに出現するのを観察する。
驚くべきことに、ほぼすべての生成されたモデルは機能的で能力があり、モデル空間の検索が簡単になる。
我々は、DeepSeekのV3-0324モデルとR1モデルを組み合わせて、671BのオープンウェイトハイブリッドモデルであるDeepSeek R1T "Chimera"を構築した。
子供はルーティングされたR1のエキスパートテンソルのみを継承するが、それでもR1レベルのインテリジェンスを達成している。
同時に、V3速度に近い40倍の出力トークンを使用する。
キメラは微調整も蒸留もせずに製造され、親のモデルと比べて驚くほどコンパクトで整然とした理由を示す。
関連論文リスト
- LOTOS: Layer-wise Orthogonalization for Training Robust Ensembles [13.776549741449557]
リプシッツ連続性が伝達率に及ぼす影響について検討する。
アンサンブルのための新しい訓練パラダイムであるLOTOSを導入し、この悪影響に対処する。
論文 参考訳(メタデータ) (2024-10-07T15:43:28Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。