論文の概要: LongCat-Flash Technical Report
- arxiv url: http://arxiv.org/abs/2509.01322v1
- Date: Mon, 01 Sep 2025 10:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.635727
- Title: LongCat-Flash Technical Report
- Title(参考訳): LongCat-Flash技術報告
- Authors: Meituan LongCat Team, Bayan, Bei Li, Bingye Lei, Bo Wang, Bolin Rong, Chao Wang, Chao Zhang, Chen Gao, Chen Zhang, Cheng Sun, Chengcheng Han, Chenguang Xi, Chi Zhang, Chong Peng, Chuan Qin, Chuyu Zhang, Cong Chen, Congkui Wang, Dan Ma, Daoru Pan, Defei Bu, Dengchang Zhao, Deyang Kong, Dishan Liu, Feiye Huo, Fengcun Li, Fubao Zhang, Gan Dong, Gang Liu, Gang Xu, Ge Li, Guoqiang Tan, Guoyuan Lin, Haihang Jing, Haomin Fu, Haonan Yan, Haoxing Wen, Haozhe Zhao, Hong Liu, Hongmei Shi, Hongyan Hao, Hongyin Tang, Huantian Lv, Hui Su, Jiacheng Li, Jiahao Liu, Jiahuan Li, Jiajun Yang, Jiaming Wang, Jian Yang, Jianchao Tan, Jiaqi Sun, Jiaqi Zhang, Jiawei Fu, Jiawei Yang, Jiaxi Hu, Jiayu Qin, Jingang Wang, Jiyuan He, Jun Kuang, Junhui Mei, Kai Liang, Ke He, Kefeng Zhang, Keheng Wang, Keqing He, Liang Gao, Liang Shi, Lianhui Ma, Lin Qiu, Lingbin Kong, Lingtong Si, Linkun Lyu, Linsen Guo, Liqi Yang, Lizhi Yan, Mai Xia, Man Gao, Manyuan Zhang, Meng Zhou, Mengxia Shen, Mingxiang Tuo, Mingyang Zhu, Peiguang Li, Peng Pei, Peng Zhao, Pengcheng Jia, Pingwei Sun, Qi Gu, Qianyun Li, Qingyuan Li, Qiong Huang, Qiyuan Duan, Ran Meng, Rongxiang Weng, Ruichen Shao, Rumei Li, Shizhe Wu, Shuai Liang, Shuo Wang, Suogui Dang, Tao Fang, Tao Li, Tefeng Chen, Tianhao Bai, Tianhao Zhou, Tingwen Xie, Wei He, Wei Huang, Wei Liu, Wei Shi, Wei Wang, Wei Wu, Weikang Zhao, Wen Zan, Wenjie Shi, Xi Nan, Xi Su, Xiang Li, Xiang Mei, Xiangyang Ji, Xiangyu Xi, Xiangzhou Huang, Xianpeng Li, Xiao Fu, Xiao Liu, Xiao Wei, Xiaodong Cai, Xiaolong Chen, Xiaoqing Liu, Xiaotong Li, Xiaowei Shi, Xiaoyu Li, Xili Wang, Xin Chen, Xing Hu, Xingyu Miao, Xinyan He, Xuemiao Zhang, Xueyuan Hao, Xuezhi Cao, Xunliang Cai, Xurui Yang, Yan Feng, Yang Bai, Yang Chen, Yang Yang, Yaqi Huo, Yerui Sun, Yifan Lu, Yifan Zhang, Yipeng Zang, Yitao Zhai, Yiyang Li, Yongjing Yin, Yongkang Lv, Yongwei Zhou, Yu Yang, Yuchen Xie, Yueqing Sun, Yuewen Zheng, Yuhua Wei, Yulei Qian, Yunfan Liang, Yunfang Tai, Yunke Zhao, Zeyang Yu, Zhao Zhang, Zhaohua Yang, Zhenchao Zhang, Zhikang Xia, Zhiye Zou, Zhizhao Zeng, Zhongda Su, Zhuofan Chen, Zijian Zhang, Ziwen Wang, Zixu Jiang, Zizhe Zhao, Zongyu Wang, Zunhai Su,
- Abstract要約: LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
- 参考スコア(独自算出の注目度): 165.66422346171862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LongCat-Flash, a 560-billion-parameter Mixture-of-Experts (MoE) language model designed for both computational efficiency and advanced agentic capabilities. Stemming from the need for scalable efficiency, LongCat-Flash adopts two novel designs: (a) Zero-computation Experts, which enables dynamic computational budget allocation and activates 18.6B-31.3B (27B on average) per token depending on contextual demands, optimizing resource usage. (b) Shortcut-connected MoE, which enlarges the computation-communication overlap window, demonstrating notable gains in inference efficiency and throughput compared to models of a comparable scale. We develop a comprehensive scaling framework for large models that combines hyperparameter transfer, model-growth initialization, a multi-pronged stability suite, and deterministic computation to achieve stable and reproducible training. Notably, leveraging the synergy among scalable architectural design and infrastructure efforts, we complete model training on more than 20 trillion tokens within 30 days, while achieving over 100 tokens per second (TPS) for inference at a cost of \$0.70 per million output tokens. To cultivate LongCat-Flash towards agentic intelligence, we conduct a large-scale pre-training on optimized mixtures, followed by targeted mid- and post-training on reasoning, code, and instructions, with further augmentation from synthetic data and tool use tasks. Comprehensive evaluations demonstrate that, as a non-thinking foundation model, LongCat-Flash delivers highly competitive performance among other leading models, with exceptional strengths in agentic tasks. The model checkpoint of LongCat-Flash is open-sourced to foster community research. LongCat Chat: https://longcat.ai Hugging Face: https://huggingface.co/meituan-longcat GitHub: https://github.com/meituan-longcat
- Abstract(参考訳): 計算効率と高度なエージェント能力の両方のために設計された560ビリオンパラメータ混在(MoE)言語モデルであるLongCat-Flashを紹介する。
スケーラブルな効率性の必要性から、LongCat-Flashは2つの新しい設計を採用した。
(a)ゼロ計算エキスパート(Zero-Computation Experts)は、動的計算予算割り当てを可能にし、コンテキスト要求に応じてトークン当たり18.6B-31.3B(平均27B)を起動し、リソース使用量を最適化する。
(b)ショートカット接続型MoEは,計算通信重なり窓を大きくし,推定効率とスループットが同等のスケールのモデルに比べて顕著に向上したことを示す。
我々は,ハイパーパラメータ転送,モデル成長の初期化,多機能安定スイート,安定かつ再現可能なトレーニングを実現する決定論的計算を組み合わせた大規模モデルの包括的なスケーリングフレームワークを開発する。
特に、スケーラブルなアーキテクチャ設計とインフラストラクチャの取り組みの相乗効果を活用して、30日以内に20兆トークン以上のモデルトレーニングを完了します。
エージェントインテリジェンスに向け,LongCat-Flashを大規模に事前学習し,その後,推論,コード,命令を対象とし,さらに合成データやツールの使用タスクを増強する。
総合的な評価によると、LongCat-Flashは、考えのない基礎モデルとして、他の主要なモデルと高い競争力を発揮し、エージェント的タスクでは例外的な強みを持っている。
LongCat-Flashのモデルチェックポイントは、コミュニティ研究を促進するためにオープンソース化されている。
LongCat Chat: https://longcat.ai Hugging Face: https://huggingface.co/meituan-longcat GitHub: https://github.com/meituan-longcat
関連論文リスト
- Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.13332839594069593]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [196.74837065805488]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。
高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (2025-05-21T12:11:53Z) - From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。
コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。
提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-08T16:58:58Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。