論文の概要: Motif 2 12.7B technical report
- arxiv url: http://arxiv.org/abs/2511.07464v1
- Date: Wed, 12 Nov 2025 01:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.342807
- Title: Motif 2 12.7B technical report
- Title(参考訳): Motif 2 12.7Bテクニカルレポート
- Authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon,
- Abstract要約: Motif-2-12.7Bは、大規模言語モデルの効率フロンティアを推し進める新しいオープンウェイト基盤モデルである。
モデルは、様々な言語、数学、科学、プログラミングドメインにまたがる5.5兆のトークンで事前訓練されている。
ポストトレーニングでは、一般的な命令順守、構成的理解、言語的正確性を高める3段階の教師付き微調整パイプラインが採用されている。
- 参考スコア(独自算出の注目度): 8.084150960631142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.
- Abstract(参考訳): アーキテクチャの革新とシステムレベルの最適化を組み合わせることで,大規模言語モデルの効率フロンティアを推し進める,新しいオープンウェイト基盤モデルであるMotif-2-12.7Bを紹介する。
制約付き計算予算の下でスケーラブルな言語理解と堅牢な命令一般化のために設計されたMotif-2-12.7Bは、GDA(Grouped Differential Attention)を統合してMotif-2.6B上に構築され、信号とノイズ制御の注意経路を分離することで表現効率を向上させる。
このモデルは、カリキュラム駆動のデータスケジューラを使用して、様々な言語、数学、科学、プログラミングドメインにまたがる5.5兆のトークンで事前訓練されている。
トレーニングシステムは、MuonClipオプティマイザと、融合したPolyNormアクティベーションやParallel Muonアルゴリズムなどのカスタム高性能カーネルを活用し、大規模分散環境で大きなスループットとメモリ効率の向上をもたらす。
ポストトレーニングでは3段階の教師付き微調整パイプラインが採用され、一般的な命令の順守、構成的理解、言語的精度が継続的に向上する。
Motif-2-12.7Bは、様々なベンチマーク間での競合性能を示し、思慮深いアーキテクチャスケーリングと最適化されたトレーニング設計が、はるかに大きなモデルの能力に匹敵することを示した。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - PLaMo 2 Technical Report [9.166942912957724]
本研究では,サンバをベースとしたハイブリッドアーキテクチャを特徴とする,日本語を対象とする大規模言語モデルであるPLaMo 2を紹介する。
PLaMo 2モデルは、日本語のベンチマークで最先端の結果を達成し、命令追従、言語流速、日本語特有の知識において、同様の大きさのオープンモデルよりも優れている。
論文 参考訳(メタデータ) (2025-09-05T08:17:59Z) - Bielik 11B v2 Technical Report [0.0]
Bielik 11B v2はポーランドのテキスト処理に最適化された最先端の言語モデルである。
Mistral 7B v0.2アーキテクチャ上に構築され、深度アップスケーリングを使用して11Bパラメータに拡張された。
Weighted Instruction Cross-Entropy LossとAdaptive Learning Rateの2つの重要な技術革新を紹介します。
論文 参考訳(メタデータ) (2025-05-05T07:03:41Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。