2026-03-26 Daily Report: Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Authors Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

Affiliations Shanghai AI Laboratory

Categories Application / Scientific Modeling / Multimodal scientific expertise, Method / Foundation Model Training / Trillion-parameter scale training, Evaluation / Model Scaling / Scaling effects on scientific tasks

License CC BY 4.0

Abstract Overview

Intern-S1-Pro is presented as the first one-trillion-parameter scientific multimodal foundation model, built on a sparse Mixture-of-Experts (MoE) architecture expanded from Intern-S1 with 4× more experts. The model targets both general capabilities and deep expertise across chemistry, materials science, life sciences, and earth sciences, covering over 100 specialized tasks. Key architectural contributions include grouped routing for absolute expert load balancing under expert parallelism, a straight-through estimator for dense-gradient router optimization, a native-resolution vision encoder, Fourier position encoding, and a dedicated time-series module with adaptive subsampling. Continued pretraining uses 6T tokens, including approximately 270B tokens of scientific image-text data produced by a PDF-based caption pipeline. The paper also details system co-design between XTuner and LMDeploy to enable stable mixed-precision reinforcement learning at trillion scale, with techniques such as rollout router replay and targeted FP8 quantization of expert layers.

Novelty

The paper's primary contribution is scaling a multimodal foundation model to one trillion parameters with explicit targeting of scientific domains, combining expert expansion with grouped routing that achieves absolute load balancing across devices under expert parallelism. It also introduces a straight-through estimator for dense gradient flow to all router embeddings during sparse Top-K selection, and a large-scale PDF-based caption pipeline that produced approximately 270B tokens of scientific image-text data for cross-modal alignment.

Results

On scientific benchmarks, Intern-S1-Pro reports leading scores including 55.5 on SciReasoner (vs. 14.7 for Gemini-3-Pro), 74.8 on SmolInstruct, 72.8 on MatBench, 48.8 on Mol-Instructions, 52.5 on Biology-Instruction, and 52.8 on XLRS-Bench. On general benchmarks it remains competitive, scoring 93.1 on AIME-2025, 86.6 on MMLU-Pro, 77.4 on GAIA, 80.9 on τ²-Bench, and 93.6 on ScreenSpot V2. The dedicated time-series module substantially outperforms text-only and vision-language baselines on the reported SciTS subset, achieving an F1 of 99.5 on EAU01 and 88.3 on BIU03.

Key Points

Intern-S1-Pro scales scientific multimodal modeling to one trillion parameters via expert expansion with grouped routing, achieving absolute load balancing under 8-way expert parallelism and enabling stable mixed-precision RL training through co-design of XTuner and LMDeploy.
The training recipe includes 6T tokens for continued pretraining, with approximately 270B tokens of PDF-derived scientific image-text captions produced by a dedicated pipeline using layout analysis, perceptual hashing deduplication, topic-based model routing, and a text quality discriminator.
The model reports leading results on multiple scientific benchmarks (e.g., SciReasoner 55.5, SmolInstruct 74.8, MatBench 72.8) while maintaining competitive general performance, and a case study on biological tasks demonstrates that joint training of a large generalist model can outperform a specialized model trained on the same data.

References

arXiv: https://arxiv.org/abs/2603.25040v1
Fugu-MT: https://fugumt.com/fugumt/paper_check/2603.25040v1
Hugging Face Papers: https://huggingface.co/papers/2603.25040