論文の概要: S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images
- arxiv url: http://arxiv.org/abs/2604.21409v1
- Date: Thu, 23 Apr 2026 08:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.382233
- Title: S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images
- Title(参考訳): S1-VL:思考と画像による科学的マルチモーダル推論モデル
- Authors: Qingxiao Li, Lifeng Xu, QingLi Wang, Yudong Bai, Mingwei Ou, Shu Hu, Nan Xu,
- Abstract要約: 本稿では,S1-VLを科学領域の多モーダル推論モデルとして提示する。
科学的推論(Scientific Reasoning)と思考とイメージ(Thinking-with-Images)の2つの補完的推論パラダイムをサポートしている。
Thinking-with-Imagesモードでは、サンドボックス環境でイメージ処理コードを生成し実行します。
S1-VL-32Bは5つのThinking-with-Imagesベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.99748385383303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present S1-VL, a multimodal reasoning model for scientific domains that natively supports two complementary reasoning paradigms: Scientific Reasoning, which relies on structured chain-of-thought, and Thinking-with-Images, which enables the model to actively manipulate images through Python code execution during reasoning. In the Thinking-with-Images mode, the model generates and executes image-processing code in a sandbox environment, obtains intermediate visual results, and continues reasoning in a multi-turn iterative manner. This design is particularly effective for challenging scenarios such as high-resolution scientific chart interpretation, microscopic image understanding, and geometry-assisted reasoning. To construct the training data, we collect scientific multimodal datasets spanning six disciplines: mathematics, physics, chemistry, astronomy, geography, and biology. We further develop a six-dimensional quality filtering framework for reasoning trajectories. To mitigate redundant, ineffective, and erroneous visual operations commonly found in existing datasets, we propose a multi-stage filtering pipeline together with an adaptive data routing strategy. This strategy converts samples with low visual information gain into pure Reasoning-mode data, enabling the model to learn when image operations are truly necessary. S1-VL is trained through a four-stage progressive pipeline: scientific multimodal SFT, Thinking-with-Images cold-start SFT, and two stages of reinforcement learning with SAPO. We build S1-VL-32B on top of Qwen3-VL-32B-Thinking and evaluate it on 13 benchmarks. Experimental results show that S1-VL-32B achieves state-of-the-art performance on all five Thinking-with-Images benchmarks, including HRBench-4K, HRBench-8K, MME-RealWorld-CN, MME-RealWorld-Lite, and V*, and outperforms compared systems on scientific reasoning benchmarks such as Physics and VRSBench.
- Abstract(参考訳): S1-VLは2つの相補的推論パラダイムをネイティブにサポートしている科学ドメインのためのマルチモーダル推論モデルである。
Thinking-with-Imagesモードでは、サンドボックス環境で画像処理コードを生成し実行し、中間的な視覚的結果を取得し、マルチターン反復的な推論を継続する。
この設計は、高解像度の科学的チャート解釈、顕微鏡画像理解、幾何学支援推論などの挑戦的なシナリオに特に有効である。
トレーニングデータを構築するために,数学,物理,化学,天文学,地理,生物学の6分野にまたがる科学的マルチモーダルデータセットを収集した。
さらに,軌跡推論のための6次元品質フィルタリングフレームワークを開発した。
既存のデータセットに共通する冗長、非効率、誤の視覚的操作を軽減するため、適応的なデータルーティング戦略とともに多段フィルタリングパイプラインを提案する。
この戦略は、低視情報ゲインのサンプルを純粋なReasoning-modeデータに変換し、画像操作が本当に必要なときにモデルを学習できるようにする。
S1-VLは、科学的なマルチモーダルSFT、シンキング・ウィズ・イメージズ・コールドスタートSFT、SAPOによる強化学習の2段階の4段階のプログレッシブパイプラインを通じて訓練される。
我々は、Qwen3-VL-32B-Thinking上にS1-VL-32Bを構築し、13のベンチマークで評価した。
実験結果から,S1-VL-32BはHRBench-4K,HRBench-8K,MME-RealWorld-CN,MME-RealWorld-Lite,V*を含む5つのThinking-with-Imagesベンチマークの最先端性能を達成し,物理やVRSBenchなどの科学推論ベンチマークのシステムよりも優れていた。
関連論文リスト
- Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding [25.81793866721208]
本稿では,マルチイメージ推論を5つの構造化メタアクション(Global, Focus, Hint, Think, Answer)に分解する手法を提案する。
我々のモデルはMUIRおよびMVMathベンチマークでGPT-4oを上回り、特にビデオ理解ベンチマークで特別なビデオ推論モデルよりも優れている。
論文 参考訳(メタデータ) (2026-01-12T08:15:36Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation? [26.133995243580028]
マルチモーダル大言語モデル(LLM)は、テキスト命令から高品質な画像を生成する際、印象的な能力を示した。
この研究は、テキスト記述から科学画像を生成する際のLLMのマルチモーダル能力を評価するために設計されたベンチマークであるScImageを紹介する。
論文 参考訳(メタデータ) (2024-12-03T10:52:06Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。