論文の概要: LongCat-Flash-Thinking-2601 Technical Report
- arxiv url: http://arxiv.org/abs/2601.16725v1
- Date: Fri, 23 Jan 2026 13:20:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.691156
- Title: LongCat-Flash-Thinking-2601 Technical Report
- Title(参考訳): LongCat-Flash-Thinking-2601技術報告
- Authors: Meituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang,
- Abstract要約: LongCat-Flash-Thinking-2601はオープンソースのMixture-of-Experts (MoE)推論モデルである。
LongCat-Flash-Thinking-2601は、幅広いエージェントベンチマーク上で、オープンソースモデル間の最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 134.89732115690705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LongCat-Flash-Thinking-2601, a 560-billion-parameter open-source Mixture-of-Experts (MoE) reasoning model with superior agentic reasoning capability. LongCat-Flash-Thinking-2601 achieves state-of-the-art performance among open-source models on a wide range of agentic benchmarks, including agentic search, agentic tool use, and tool-integrated reasoning. Beyond benchmark performance, the model demonstrates strong generalization to complex tool interactions and robust behavior under noisy real-world environments. Its advanced capability stems from a unified training framework that combines domain-parallel expert training with subsequent fusion, together with an end-to-end co-design of data construction, environments, algorithms, and infrastructure spanning from pre-training to post-training. In particular, the model's strong generalization capability in complex tool-use are driven by our in-depth exploration of environment scaling and principled task construction. To optimize long-tailed, skewed generation and multi-turn agentic interactions, and to enable stable training across over 10,000 environments spanning more than 20 domains, we systematically extend our asynchronous reinforcement learning framework, DORA, for stable and efficient large-scale multi-environment training. Furthermore, recognizing that real-world tasks are inherently noisy, we conduct a systematic analysis and decomposition of real-world noise patterns, and design targeted training procedures to explicitly incorporate such imperfections into the training process, resulting in improved robustness for real-world applications. To further enhance performance on complex reasoning tasks, we introduce a Heavy Thinking mode that enables effective test-time scaling by jointly expanding reasoning depth and width through intensive parallel thinking.
- Abstract(参考訳): エージェント推論能力に優れた560ビリオンパラメタのオープンソースMixture-of-Experts(MoE)推論モデルであるLongCat-Flash-Thinking-2601を紹介する。
LongCat-Flash-Thinking-2601は、エージェント検索、エージェントツールの使用、ツール統合推論など、幅広いエージェントベンチマークにおいて、オープンソースモデル間の最先端のパフォーマンスを達成する。
ベンチマーク性能以外にも、このモデルは複雑なツールインタラクションや、騒々しい実環境下での堅牢な振る舞いに強力な一般化を示す。
その高度な能力は、ドメイン並列エキスパートトレーニングとその後の融合を組み合わせた統一的なトレーニングフレームワークと、事前トレーニングから後トレーニングまでのデータ構築、環境、アルゴリズム、インフラストラクチャのエンドツーエンドの共同設計に端を発する。
特に、複雑なツール利用におけるモデルの強力な一般化能力は、環境スケーリングと原則化されたタスク構築の詳細な調査によってもたらされる。
20以上の領域にまたがる1万以上の環境にまたがる、長い尾を持つ、歪んだ、マルチターンのエージェントインタラクションを最適化し、安定したトレーニングを可能にするために、我々は非同期強化学習フレームワークDORAを体系的に拡張し、安定かつ効率的な大規模マルチ環境トレーニングを行う。
さらに、実世界のタスクが本質的にノイズであることを認め、実世界のノイズパターンの体系的分析と分解を行い、これらの欠陥をトレーニングプロセスに明示的に組み込むことを目標とした訓練手順を設計し、実世界のアプリケーションにロバスト性の向上をもたらす。
複雑な推論タスクの性能を高めるために,集中的並列思考を通じて推論深度と幅を共同で拡張し,効果的なテストタイムスケーリングを可能にするヘビーシンキングモードを導入する。
関連論文リスト
- Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window [88.85901839023803]
DeepMinerは、高機能なトレーニングタスクと動的コンテキストウィンドウを導入することで、そのような能力を引き出す新しいフレームワークである。
We developed DeepMiner-32B, which is a significant performance improvements across multiple search agent benchmarks。
論文 参考訳(メタデータ) (2025-10-09T14:31:39Z) - Introducing LongCat-Flash-Thinking: A Technical Report [116.75498493511026]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。
高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。
LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T10:25:48Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling [71.37579508777843]
大規模言語モデル(LLM)は、複雑な推論機能を実現することによって、人工知能に革命をもたらした。
このギャップに対処するため、1000以上のドメイン分散タスク環境からなるオープンソースのフレームワークであるInternBootcampを紹介します。
論文 参考訳(メタデータ) (2025-08-12T05:00:00Z) - Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning [0.21845291030915975]
ARTISTはエージェント推論、強化学習、大規模言語モデルのツール統合を密に結合する統合フレームワークである。
モデルは、マルチターン推論チェーン内でいつ、どのように、どのツールを呼び出すかを、自律的に決定できる。
実験の結果、ARTISTは最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-04-28T10:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。