論文の概要: JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency
- arxiv url: http://arxiv.org/abs/2604.03044v1
- Date: Fri, 03 Apr 2026 13:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.486767
- Title: JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency
- Title(参考訳): JoyAI-LLM Flash: トークン効率で中規模のLLMを改善する
- Authors: Aichen Cai, Anmeng Zhang, Anyu Li, Bo Zhang, Bohua Cai, Chang Li, Changjian Jiang, Changkai Lu, Chao Xue, Chaocai Liang, Cheng Zhang, Dongkai Liu, Fei Wang, Guoqiang Huang, Haijian Ke, Han Lin, Hao Wang, Ji Miao, Jiacheng Zhang, Jialong Shi, Jifeng Zhu, Jingjing Qian, Junhui Luo, Junwu Xiong, Lam So, Liang Huang, Ming Ke, Mingyang Li, Panfeng Shi, Peng Hao, Qi Wang, Qian Lai, Qiaoqiao Yuan, Qingyu Yin, Qiong Cao, Qixiang Wang, Rongcheng Bian, Rongduo Han, Shaoqiang Zheng, Shi Hu, Shi Suo, Shijie Ren, Shijin Zhang, Shiying Fan, Shuai Xie, Tianyi Zhang, Wei Liu, Wentao Tan, Xianghan Meng, Xiaodong He, Xing Pan, Xiran Wang, Xuyang Peng, Ya Zhang, Yang Liu, Yangyang Duan, Yanxu Chen, Yicheng Gong, Yidan Huang, Yifei Liu, Yinhao Bai, Yongqiang Liu, Yuesong Zhang, Yuqi Zhang, Zerui Xie, Zhenfang Wang, Zhennan Shen, Zheyuan Liu, Zhuwei Zeng,
- Abstract要約: JoyAI-LLM Flashは、強力なパフォーマンスとトークン効率のトレードオフを再定義するために設計された、効率的なMixture-of-Experts (MoE)言語モデルである。
JoyAI-LLM Flashは20兆トークンの巨大なコーパスで事前トレーニングされており、厳格なポストトレーニングパイプラインを通じてさらに最適化されている。
- 参考スコア(独自算出の注目度): 56.46698214215968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JoyAI-LLM Flash, an efficient Mixture-of-Experts (MoE) language model designed to redefine the trade-off between strong performance and token efficiency in the sub-50B parameter regime. JoyAI-LLM Flash is pretrained on a massive corpus of 20 trillion tokens and further optimized through a rigorous post-training pipeline, including supervised fine-tuning (SFT), Direct Preference Optimization (DPO), and large-scale reinforcement learning (RL) across diverse environments. To improve token efficiency, JoyAI-LLM Flash strategically balances \emph{thinking} and \emph{non-thinking} cognitive modes and introduces FiberPO, a novel RL algorithm inspired by fibration theory that decomposes trust-region maintenance into global and local components, providing unified multi-scale stability control for LLM policy optimization. To enhance architectural sparsity, the model comprises 48B total parameters while activating only 2.7B parameters per forward pass, achieving a substantially higher sparsity ratio than contemporary industry leading models of comparable scale. To further improve inference throughput, we adopt a joint training-inference co-design that incorporates dense Multi-Token Prediction (MTP) and Quantization-Aware Training (QAT). We release the checkpoints for both JoyAI-LLM-48B-A3B Base and its post-trained variants on Hugging Face to support the open-source community.
- Abstract(参考訳): 我々は,50B以下のパラメータ体系において,強力な性能とトークン効率のトレードオフを再定義するために設計された,効率的なMixture-of-Experts(MoE)言語モデルであるJoyAI-LLM Flashを紹介する。
JoyAI-LLM Flashは、20兆のトークンからなる巨大なコーパス上に事前トレーニングされており、教師付き微調整(SFT)、直接優先度最適化(DPO)、さまざまな環境にわたる大規模強化学習(RL)など、厳格な後トレーニングパイプラインを通じてさらに最適化されている。
トークン効率を改善するために、JoyAI-LLM Flash は、戦略的に \emph{thinking} と \emph{non-thinking} の認知モードをバランスさせ、FilberPO を導入している。
アーキテクチャのスパーシリティを高めるために、モデルには48Bの総パラメータが含まれ、前方通過当たりのパラメータは2.7Bに過ぎず、同規模の現代の業界トップモデルよりもかなり高いスパーシリティ比を達成している。
推論スループットをさらに向上するため,高密度マルチトークン予測(MTP)とQAT(Quantization-Aware Training)を組み合わせた共同トレーニング推論共同設計を採用した。
オープンソースコミュニティをサポートするために、JoyAI-LLM-48B-A3B BaseとHugging Faceのポストトレーニング後のバージョンの両方のチェックポイントをリリースしました。
関連論文リスト
- DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization [44.14678335188207]
拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T13:59:50Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z) - BiERL: A Meta Evolutionary Reinforcement Learning Framework via Bilevel
Optimization [34.24884427152513]
双レベル最適化(BiERL)による一般的なメタERLフレームワークを提案する。
我々は、内部レベルの進化した経験を情報的人口表現に組み込むエレガントなメタレベルアーキテクチャを設計する。
我々は MuJoCo と Box2D タスクの広範な実験を行い、一般的なフレームワークとして BiERL が様々なベースラインを上回り、ERL アルゴリズムの多様性の学習性能を一貫して向上することを検証する。
論文 参考訳(メタデータ) (2023-08-01T09:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。