論文の概要: Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
- arxiv url: http://arxiv.org/abs/2511.19496v1
- Date: Sun, 23 Nov 2025 13:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.043981
- Title: Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM
- Title(参考訳): Xmodel-2.5: 1.3Bデータ効率の良い推論SLM
- Authors: Yang Liu, Xiaolong Zhong, Ling Jiang,
- Abstract要約: 大規模言語モデルは強力な推論とツール使用スキルを提供するが、その計算要求により、エッジやコストに敏感なデプロイメントでは実用的ではない。
我々は,emphdrop-inエージェントコアとして設計された小さな言語モデルである textbfXmodel-2.5 を提案する。
1.4T-Token Warmup-Stable-Decayのカリキュラムを用いて,崩壊期におけるAdamWからMuonへのテキスト交換により,13タスクの推論平均が4.58,%向上したことを示す。
- 参考スコア(独自算出の注目度): 9.66649607557783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models deliver strong reasoning and tool-use skills, yet their computational demands make them impractical for edge or cost-sensitive deployments. We present \textbf{Xmodel-2.5}, a 1.3-billion-parameter small language model designed as a \emph{drop-in agent core}. Training with maximal-update parameterization ($μ$P) allows hyper-parameters tuned on a 20M-parameter proxy to transfer directly to the full model, even under the parameter-tied \emph{tie-word-embedding} architecture. A 1.4T-token Warmup--Stable--Decay curriculum is used, and we further show that \textbf{switching from AdamW to Muon during the decay phase} improves the 13-task reasoning average by 4.58\,\% while keeping every other hyper-parameter fixed, verifying that early AdamW stability can be paired with late Muon sharpening for better downstream performance. FP8-mixed-precision training balances accuracy and throughput. All checkpoints, recipes, and evaluation code are released under the Apache-2.0 license.\footnote{https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (training checkpoints).} Training code and evaluation harness: https://github.com/XiaoduoAILab/Xmodel-2.5.
- Abstract(参考訳): 大規模言語モデルは強力な推論とツール使用スキルを提供するが、その計算要求により、エッジやコストに敏感なデプロイメントでは実用的ではない。
本稿では,1.3ビリオンパラメータの小さな言語モデルである‘textbf{Xmodel-2.5}を,‘emph{drop-in agent core}’として提案する。
最大更新パラメータ化(μ$P)のトレーニングでは、パラメータタイドの \emph{tie-word-embedding} アーキテクチャの下でも、20Mパラメータプロキシで調整されたハイパーパラメータをフルモデルに直接転送することができる。
1.4T-token Warmup-Stable-Decay のカリキュラムを用いて,AdamW から Muon への変換により,13タスクの推論平均が4.58\,\% 向上し,他のハイパーパラメータの固定を保ち,早期のAdamW の安定性と,下流性能の向上を両立できることを確認した。
FP8-mixed-precisionトレーニングは精度とスループットのバランスを取る。
すべてのチェックポイント、レシピ、評価コードは、Apache-2.0ライセンスでリリースされている。
https://huggingface.co/XiaoduoAILab/Xmodel-2.5 and https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (トレーニングチェックポイント)。
https://github.com/XiaoduoAILab/Xmodel-2.5。
関連論文リスト
- The Few Govern the Many:Unveiling Few-Layer Dominance for Time Series Models [14.479996384788445]
我々は,より大きなモデルではより優れた性能が得られない,ファズリング現象を観察する。
本稿では,これらの支配層のみを自動的に識別し,保持する実用的な手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T15:53:29Z) - Fantastic Pretraining Optimizers and Where to Find Them [59.56075036649332]
AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
論文 参考訳(メタデータ) (2025-09-02T07:43:22Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Xmodel-2 Technical Report [4.0069773933776665]
Xmodel-2は、推論タスク用に特別に設計された大きな言語モデルである。
トレーニング効率と安定性を最大化するために、MiniCPMのWSD学習率スケジューラを使用している。
Xmodel-2は、訓練コストを低く抑えながら、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-27T13:32:10Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。