論文の概要: STEP3-VL-10B Technical Report
- arxiv url: http://arxiv.org/abs/2601.09668v2
- Date: Thu, 15 Jan 2026 17:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.516569
- Title: STEP3-VL-10B Technical Report
- Title(参考訳): STEP3-VL-10B技術報告
- Authors: Ailin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge,
- Abstract要約: STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
- 参考スコア(独自算出の注目度): 115.89015065130127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10$\times$-20$\times$ larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.
- Abstract(参考訳): 本稿では,コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する,軽量なオープンソース基盤モデルSTEP3-VL-10Bを提案する。
STEP3-VL-10Bは,まず,言語対応の知覚エンコーダとQwen3-8Bデコーダを統合した1.2Tマルチモーダルトークン上で,統合された完全に凍結された事前学習戦略と,強化学習を1k回以上繰り返した大規模後学習パイプラインの2つの戦略シフトによって実現される。
重要なことは、我々はPallel Coordinated Reasoning (PaCoRe)を実装し、テスト時間計算をスケールし、リソースを多様な視覚仮説を探索し合成するスケーラブルな知覚推論に割り当てる。
その結果、コンパクトな10Bサイズにもかかわらず、STEP3-VL-10Bは10$\times$-20$\times$もっと大きい(例えば、GLM-4.6V-106B、Qwen3-VL-235B)モデルや、Gemini 2.5 ProやSeed-1.5-VLのような一流のフラッグシップモデルに匹敵する。
AIME2025では94.43%、MathVisionでは75.95%、MMBenchでは92.2%、MMMUでは80.11%を記録した。
コミュニティに強力で効率的で再現可能なベースラインを提供するために、完全なモデルスイートをリリースします。
関連論文リスト
- LFM2 Technical Report [87.58431408281973]
LFM2は、デバイス上での効率的なデプロイと強力なタスク機能を実現するために設計された、Liquid Foundation Modelsのファミリーである。
LFM2ファミリーは350M-8.3Bパラメータをカバーしており、密度の高いモデル(350M, 700M, 1.2B, 2.6B)と試験用混合物(合計8.3B, 1.5B)を含んでいる。
視覚遅延タスクのためのLFM2-VL,音声のためのLFM2-Audio,検索のためのLFM2-ColBERTを構築した。
論文 参考訳(メタデータ) (2025-11-28T17:56:35Z) - Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data [55.65426108082807]
Uni-MoE-2.0-Omniをスクラッチから3つのコアコントリビューションで構築しています。
雑用的な理解や、画像、テキスト、音声を生成することができる。
論文 参考訳(メタデータ) (2025-11-16T14:10:55Z) - Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - SAIL-VL2 Technical Report [65.45818722427506]
広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-17T14:34:02Z) - STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision [24.162895928364062]
トポロジを意識した推論のためのトレーニングフレームワークSTELAR-Visionを紹介する。
コアとなるTopoAugは、さまざまなトポロジカルな構造でトレーニングを充実させる合成データパイプラインだ。
MATH-VとVLM-S2Hでは、STELAR-Visionはベースモデルの精度を9.7%向上し、より大型のQwen2VL-72B-インストラクションを7.3%上回っている。
論文 参考訳(メタデータ) (2025-08-12T07:27:50Z) - TorchTitan: One-stop PyTorch native solution for production ready LLM pre-training [17.157552816494427]
本稿では,オープンソースのPyTorchネイティブ分散トレーニングシステムであるTorchTitanを紹介する。
最先端のテクニックを統一し、統合を合理化し、オーバーヘッドを減らす。
大型言語モデル (LLM) のLlama 3.1 ファミリー上での TorchTitan の評価を行った。
論文 参考訳(メタデータ) (2024-10-09T03:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。