Fugu-MT 論文翻訳(概要): Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors

論文の概要: Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors

arxiv url: http://arxiv.org/abs/2506.14794v1
Date: Sat, 31 May 2025 18:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.681453
Title: Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
Title（参考訳）: 専門家集会創発的かつ適応的な振る舞いを持つキメラLLM変種を線形時間で構築する
Authors: Henrik Klagges, Robert Dahlke, Fabian Klemm, Benjamin Merkel, Daniel Klingmann, David A. Reiss, Dan Zecha,
Abstract要約: 既存のMixture-of-Experts親モデルの有能な子版を線形時間で作成するための「AoE」構築法。我々は、DeepSeekのV3-0324モデルとR1モデルを組み合わせて、671BのオープンウェイトハイブリッドモデルであるDeepSeek R1T "Chimera"を構築した。
参考スコア（独自算出の注目度）: 1.1098503592431277
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Requiring $10^{13}$-$10^{15}$ FLOPs to calculate one 8 bit weight in an LLM during pretraining is extremely expensive and seems inefficient. To better leverage the huge investments made into pretrained models, we develop the new "Assembly-of-Experts" (AoE) construction method to create capable child variants of existing Mixture-of-Experts parent models in linear time. Model weight tensors get interpolated individually, allowing to enhance or suppress semantic features of the parents. Varying the proportion of weights taken from the parent models, we observe some properties of the AoE child model changing gradually, while other behavioral traits emerge with a sharp transition. Surprisingly, nearly every generated model is functional and capable, which makes searching the model space straightforward. We construct the DeepSeek R1T "Chimera", a 671B open-weights hybrid model combining DeepSeek's V3-0324 and R1 model variants. The child inherits only the routed expert tensors of R1, but still achieves about R1-level intelligence. At the same time, it uses about 40\% fewer output tokens, close to V3 speed. Constructed without any fine-tuning or distillation, the Chimera exhibits surprisingly compact, orderly reasoning compared to its parent models.
Abstract（参考訳）: 10^{13}$-$10^{15}$ FLOPs は、プレトレーニング中に LLM の 8 ビットの重みを計算するのに非常に高価であり、効率が悪いように見える。既存のMixture-of-Experts親モデルに線形時間で有能な子版を作成するために,事前学習モデルへの多大な投資をうまく活用するために,新しいAoE(Assembly-of-Experts)構築法を開発した。モデルウェイトテンソルは個別に補間され、親のセマンティックな特徴を増強または抑制することができる。親モデルから得られた重みの比率を考慮し,AoE子モデルの特性が徐々に変化するのに対して,他の行動特性は急激な遷移とともに出現するのを観察する。驚くべきことに、ほぼすべての生成されたモデルは機能的で能力があり、モデル空間の検索が簡単になる。我々は、DeepSeekのV3-0324モデルとR1モデルを組み合わせて、671BのオープンウェイトハイブリッドモデルであるDeepSeek R1T "Chimera"を構築した。子供はルーティングされたR1のエキスパートテンソルのみを継承するが、それでもR1レベルのインテリジェンスを達成している。同時に、V3速度に近い40倍の出力トークンを使用する。キメラは微調整も蒸留もせずに製造され、親のモデルと比べて驚くほどコンパクトで整然とした理由を示す。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
LOTOS: Layer-wise Orthogonalization for Training Robust Ensembles [13.776549741449557]
リプシッツ連続性が伝達率に及ぼす影響について検討する。アンサンブルのための新しい訓練パラダイムであるLOTOSを導入し、この悪影響に対処する。
論文参考訳（メタデータ） (2024-10-07T15:43:28Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。