論文の概要: SAIL-VL2 Technical Report
- arxiv url: http://arxiv.org/abs/2509.14033v2
- Date: Thu, 18 Sep 2025 15:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 12:06:46.405144
- Title: SAIL-VL2 Technical Report
- Title(参考訳): SAIL-VL2技術報告
- Authors: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng,
- Abstract要約: 広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 65.45818722427506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning. As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning. Its effectiveness is driven by three core innovations. First, a large-scale data curation pipeline with scoring and filtering strategies enhances both quality and distribution across captioning, OCR, QA, and video data, improving training efficiency. Second, a progressive training framework begins with a powerful pre-trained vision encoder (SAIL-ViT), advances through multimodal pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that systematically strengthens model capabilities. Third, architectural advances extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs. With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass leaderboard, SAIL-VL2-2B ranks first among officially released open-source models under the 4B parameter scale, while serving as an efficient and extensible foundation for the open-source multimodal community.
- Abstract(参考訳): 広義のマルチモーダル理解と推論のためのオープンな視覚言語基盤モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VLの後継として、SAIL-VL2は2Bと8Bのパラメータスケールにおいて、様々な画像やビデオのベンチマークで最先端のパフォーマンスを実現し、きめ細かい知覚から複雑な推論に至るまで、強力な能力を示している。
その効果は3つの中核的な革新によってもたらされる。
まず、スコアとフィルタリング戦略を備えた大規模データキュレーションパイプラインにより、キャプション、OCR、QA、ビデオデータ間の品質と分散が向上し、トレーニング効率が向上する。
第二に、プログレッシブトレーニングフレームワークは、強力な事前学習型ビジョンエンコーダ(SAIL-ViT)から始まり、マルチモーダルな事前学習を経て、モデル能力を体系的に強化する思考融合型SFT-RLハイブリッドパラダイムで終わる。
第三に、アーキテクチャの進歩は高密度のLLMを超えて、より効率的なMixture-of-Experts (MoE)設計へと拡張された。
これらの貢献により、SAIL-VL2は106データセット間の競合性能を示し、MMMUやMathVistaといった挑戦的な推論ベンチマークに関する最先端の結果を達成する。
さらに、OpenCompassのリーダーボードでは、SAIL-VL2-2Bが4Bパラメータスケールで公式にリリースされたオープンソースモデルの中で第1位であり、オープンソースマルチモーダルコミュニティの効率的で拡張可能な基盤として機能している。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - Scalable Vision Language Model Training via High Quality Data Curation [10.121967684111445]
本稿では,2Bパラメータと8BパラメータでSOTA(State-of-the-art)性能を実現するための,オープンソースのビジョン言語モデル(VLM)シリーズを紹介する。
以下の3つの重要な改善は、SAIL-VLの主要なパフォーマンスに貢献している。
論文 参考訳(メタデータ) (2025-01-10T13:27:04Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。