FuguReport

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

著者 Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai
所属 Shanghai AI Laboratory
カテゴリ Application / Scientific Modeling / Multimodal scientific expertise, Method / Foundation Model Training / Trillion-parameter scale training, Evaluation / Model Scaling / Scaling effects on scientific tasks
ライセンス CC BY 4.0

Abstractの概要

Intern-S1-Proは、Intern-S1からエキスパート数を4倍に拡張したスパースMixture-of-Experts(MoE)アーキテクチャに基づく、初の1兆パラメータ科学マルチモーダル基盤モデルとして提示されている。本モデルは、化学、材料科学、生命科学、地球科学にわたる汎用能力と深い専門知識の両立を目指し、100以上の専門タスクをカバーする。主要なアーキテクチャ上の貢献として、エキスパート並列処理下での絶対的な負荷分散を実現するグループ化ルーティング、スパースTop-K選択時に全ルーター埋め込みへの密な勾配フローを可能にするストレートスルー推定器、ネイティブ解像度ビジョンエンコーダ、フーリエ位置エンコーディング、および適応的サブサンプリングを備えた専用時系列モジュールが含まれる。継続事前学習には6Tトークンが使用され、そのうち約270BトークンはPDFベースのキャプションパイプラインにより生成された科学画像テキストデータである。また、XTunerとLMDeployの間のシステム共同設計により、ロールアウトルーターリプレイやエキスパート層の選択的FP8量子化などの技術を用いて、1兆スケールでの安定した混合精度強化学習を実現している。

新規性

本論文の主な貢献は、科学ドメインを明示的にターゲットとしたマルチモーダル基盤モデルを1兆パラメータに拡張し、エキスパート並列処理下でデバイス間の絶対的な負荷分散を達成するグループ化ルーティングとエキスパート拡張を組み合わせた点にある。また、スパースTop-K選択時に全ルーター埋め込みへの密な勾配フローを実現するストレートスルー推定器を導入し、クロスモーダルアライメントのために約270Bトークンの科学画像テキストデータを生成する大規模PDFベースのキャプションパイプラインを提案している。

成果

科学ベンチマークにおいて、Intern-S1-ProはSciReasoner 55.5(Gemini-3-Proの14.7に対して)、SmolInstruct 74.8、MatBench 72.8、Mol-Instructions 48.8、Biology-Instruction 52.5、XLRS-Bench 52.8を含むトップスコアを報告している。汎用ベンチマークでも競争力を維持し、AIME-2025で93.1、MMLU-Proで86.6、GAIAで77.4、τ²-Benchで80.9、ScreenSpot V2で93.6を達成している。専用時系列モジュールは、報告されたSciTSサブセットにおいてテキストのみおよびビジョン言語ベースラインを大幅に上回り、EAU01でF1 99.5、BIU03で88.3を達成している。

論文の注目点

  1. Intern-S1-Proは、グループ化ルーティングによるエキスパート拡張を用いて科学マルチモーダルモデリングを1兆パラメータに拡張し、8ウェイエキスパート並列処理下での絶対的な負荷分散を達成するとともに、XTunerとLMDeployの共同設計により安定した混合精度強化学習を実現している。
  2. 学習レシピには継続事前学習用の6Tトークンが含まれ、そのうち約270Bトークンは、レイアウト解析、知覚ハッシュ重複排除、トピックベースのモデルルーティング、テキスト品質判別器を使用した専用パイプラインにより生成されたPDF由来の科学画像テキストキャプションである。
  3. 本モデルは複数の科学ベンチマーク(例:SciReasoner 55.5、SmolInstruct 74.8、MatBench 72.8)でトップの結果を報告しつつ、汎用性能でも競争力を維持しており、生物学タスクのケーススタディでは、大規模汎用モデルの共同学習が同一データで訓練された専門モデルを上回りうることを実証している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。