論文の概要: LongCat-Flash-Thinking Technical Report
- arxiv url: http://arxiv.org/abs/2509.18883v1
- Date: Tue, 23 Sep 2025 10:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.815555
- Title: LongCat-Flash-Thinking Technical Report
- Title(参考訳): LongCat-Flash-Thinking Technical Report
- Authors: Meituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chengcheng Han, Chenhui Yang, Chi Zhang, Chong Peng, Chuyu Zhang, Cong Chen, Fengcun Li, Gang Xu, Guoyuan Lin, Hao Jiang, Hao Liang, Haomin Fu, Haoxiang Ma, Hong Liu, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiahao Liu, Jiahuan Li, Jialin Liu, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiaqi Sun, Jiaqi Zhang, Jiarong Shi, Jiawei Yang, Jingang Wang, Jinrui Ding, Jun Kuang, Jun Xu, Ke He, Kefeng Zhang, Keheng Wang, Keqing He, Li Wei, Liang Shi, Lin Qiu, Lingbin Kong, Lingchuan Liu, Linsen Guo, Longfei An, Mai Xia, Meng Zhou, Mengshen Zhu, Peng Pei, Pengcheng Jia, Qi Gu, Qi Guo, Qiong Huang, Quan Chen, Quanchi Weng, Rongxiang Weng, Ruichen Shao, Rumei Li, Shanglin Lei, Shuai Du, Shuaikang Liu, Shuang Zhou, Shuhao Hu, Siyu Xu, Songshan Gong, Tao Liang, Tianhao Hu, Wei He, Wei Shi, Wei Wang, Wei Wu, Wei Zhuo, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Xi Su, Xiangcheng Liu, Xiangyu Xi, Xiangzhou Huang, Xiao Liu, Xiaochen Jiang, Xiaowei Shi, Xiaowen Shi, Xiaoyu Li, Xin Chen, Xinyue Zhao, Xuan Huang, Xuemiao Zhang, Xuezhi Cao, Xunliang Cai, Yajie Zhang, Yang Chen, Yang Liu, Yang Liu, Yang Zheng, Yaoming Wang, Yaqi Huo, Yerui Sun, Yifan Lu, Yiyang Li, Youshao Xiao, Yuanzhe Lei, Yuchen Xie, Yueqing Sun, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunke Zhao, Yuqing Ding, Yuwei Jiang, Zhaohua Yang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhongda Su, Ziran Li, Ziwen Wang, Ziyuan Zhuang, Zongyu Wang, Zunyuan Yang,
- Abstract要約: LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。
高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。
LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 116.75498493511026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LongCat-Flash-Thinking, an efficient 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model. Its advanced capabilities are cultivated through a meticulously crafted training process, beginning with long Chain-of-Thought (CoT) data cold-start and culminating in large-scale Reinforcement Learning (RL). We first employ a well-designed cold-start training strategy, which significantly enhances the reasoning potential and equips the model with specialized skills in both formal and agentic reasoning. Then, a core innovation is our domain-parallel training scheme, which decouples optimization across distinct domains (e.g., STEM, Code, Agentic) and subsequently fuses the resulting expert models into a single, nearly Pareto-optimal model. This entire process is powered by our Dynamic ORchestration for Asynchronous rollout (DORA) system, a large-scale RL framework that delivers a greater than threefold training speedup over synchronous methods on tens of thousands of accelerators. As a result, LongCat-Flash-Thinking achieves state-of-the-art performance among open-source models on a suite of complex reasoning tasks. The model exhibits exceptional efficiency in agentic reasoning, reducing average token consumption by 64.5% (from 19, 653 to 6, 965) on AIME-25, without degrading task accuracy. We release LongCat-Flash-Thinking to promote further advances in reasoning systems and agentic AI research.
- Abstract(参考訳): 提案するLongCat-Flash-Thinkingは,オープンソースのMixture-of-Experts(MoE)推論モデルである。
その先進的な能力は、CoT(Chain-of-Thought)データから始まり、大規模強化学習(RL)において、細心の注意を要する訓練プロセスを通じて育成される。
まず, 推論能力を大幅に向上させ, 形式的およびエージェント的推論の双方において, 専門的なスキルを持つモデルを装備する, 優れた冷間開始訓練戦略を採用する。
これは、異なるドメイン(例えば、STEM、コード、エージェント)で最適化を分離し、その結果のエキスパートモデルを、ほぼパレート最適化モデルに融合させるものです。
このプロセス全体は、数万のアクセラレータ上で同期メソッドよりも3倍以上のトレーニングスピードアップを提供する大規模なRLフレームワークであるDynamic Orchestration for Asynchronous Rollout (DORA)システムによって実現されています。
結果として、LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
このモデルはエージェント推論において例外的な効率を示し、平均トークン消費量をAIME-25上で64.5%削減する(633年6月19日から965年6月6日まで)。
我々はLongCat-Flash-Thinkingをリリースし、推論システムとエージェントAI研究のさらなる進歩を促進する。
関連論文リスト
- LongCat-Flash Technical Report [165.64670448930875]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (2025-09-01T10:05:45Z) - LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Training [32.575669924032276]
強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。
本稿では,LlamaRLについて述べる。LlamaRLは大規模LLMの効率的なトレーニングに最適化された,完全に分散された非同期RLフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T22:14:15Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。