論文の概要: Arcee Trinity Large Technical Report
- arxiv url: http://arxiv.org/abs/2602.17004v1
- Date: Thu, 19 Feb 2026 01:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.600087
- Title: Arcee Trinity Large Technical Report
- Title(参考訳): Arcee Trinity Large Technical Report
- Authors: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins,
- Abstract要約: 本稿では,トークン毎の合計パラメータが400B,アクティベート数が13Bのスパースミクチャー・オブ・エキスパート・モデルであるArcee Trinity Largeの技術的レポートを示す。
トリニティ・ナノとトリニティ・ミニについて報告し、トリニティ・ナノはトークン当たり6B、トリニティ・ミニはトークン当たり1B、トリニティ・ミニはトークン当たり26B、トリニティ・ミニはトークン当たり3Bを活性化した。
モデルの最新アーキテクチャには、インターリーブされたローカルおよびグローバルな注意、アクセントされた注意、深度スケールのサンドイッチノルム、Mixture-of-Experts用のシグモイドルーティングが含まれる。
- 参考スコア(独自算出の注目度): 24.280317093378496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.
- Abstract(参考訳): 本稿では,トークン毎の合計パラメータが400B,アクティベート数が13Bのスパースミクチャー・オブ・エキスパート・モデルであるArcee Trinity Largeの技術的レポートを示す。
さらに,Trinity NanoとTrinity Miniについて報告し,Trinity Nanoはトークン毎に6B,Trinity Miniはトークン毎に1B,Trinity Miniは26B,Trinity Nanoはトークン毎に3Bが活性化された。
モデルの最新アーキテクチャには、インターリーブされたローカルおよびグローバルな注意、アクセントされた注意、深度スケールのサンドイッチノルム、Mixture-of-Experts用のシグモイドルーティングが含まれる。
Trinity Largeには、Soft-clamped Momentum Expert Bias Updates (SMEBU)という新しいMoEロードバランシング戦略も導入しています。
Muonオプティマイザを使ってモデルをトレーニングします。
3機とも無損失スパイクで訓練を完了した。
トリニティ・ナノとトリニティ・ミニは10兆トークンで事前訓練され、トリニティ・大型は17兆トークンで事前訓練された。
モデルチェックポイントはhttps://huggingface.co/arcee-ai.comで公開されている。
関連論文リスト
- NVIDIA Nemotron 3: Efficient and Open Intelligence [227.47413816066845]
ネモトロン3シリーズは強力なエージェント、推論、会話能力を提供する。
ネモトロン3モデルは、推論を可能にするマルチ環境強化学習、多段階ツールの使用、きめ細かい推論予算制御のサポートを用いて、後から訓練される。
Nemotron 3ファミリは、Mixture-of-ExpertsハイブリッドのMamba-Transformerアーキテクチャを使用して、最高レベルのスループットと最大100万トークンのコンテキスト長を提供する。
論文 参考訳(メタデータ) (2025-12-24T00:24:05Z) - SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文 参考訳(メタデータ) (2025-06-23T07:15:59Z) - MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.68287470551311]
MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。
コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。
MiniMax-M1は大規模強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (2025-06-16T15:08:02Z) - dots.llm1 Technical Report [22.612448834536067]
dots.llm1は142Bパラメータのうち14Bパラメータを活性化する大規模なMoEモデルである。
トレーニングと推論のコストを削減しつつ、最先端のモデルと同等のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-06-06T05:51:29Z) - MiniMax-01: Scaling Foundation Models with Lightning Attention [59.38940023647236]
MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。
MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。
私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
論文 参考訳(メタデータ) (2025-01-14T18:50:05Z) - Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。
我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文 参考訳(メタデータ) (2024-05-23T21:00:53Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。