論文の概要: Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
- arxiv url: http://arxiv.org/abs/2512.02395v1
- Date: Tue, 02 Dec 2025 04:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.714024
- Title: Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch
- Title(参考訳): Skywork-R1V4:画像とDeepResearchを用いたインターリーブ思考によるエージェントマルチモーダルインテリジェンスを目指して
- Authors: Yifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou,
- Abstract要約: 本稿では,30B(A3B)パラメータのマルチモーダルエージェントモデルであるSkywork-R1V4を提案する。
Skywork-R1V4は、3万件未満の高品質な計画実行トラジェクトリの教師付き微調整によってのみ訓練され、認識とマルチモーダル検索のベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 27.807674619268393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite recent progress in multimodal agentic systems, existing approaches often treat image manipulation and web search as disjoint capabilities, rely heavily on costly reinforcement learning, and lack planning grounded in real tool-execution traces. To address these limitations, we present Skywork-R1V4, a 30B (A3B) parameter multimodal agentic model that unifies multimodal planning, active image manipulation ("thinking with images"), deep multimodal search, and, most critically, interleaved reasoning that dynamically alternates between visual operations and external knowledge retrieval. Trained solely via supervised fine-tuning on fewer than 30,000 high-quality, planning-execution-consistent trajectories and validated through stepwise consistency filtering, Skywork-R1V4 achieves state-of-the-art results across perception and multimodal search benchmarks: it scores 66.1 on MMSearch and 67.2 on FVQA, surpassing Gemini 2.5 Flash on all 11 metrics. Skywork-R1V4 exhibits emergent long-horizon reasoning at inference time, successfully orchestrating more than 10 tool calls to solve complex, multi-step tasks. Our results demonstrate that sophisticated agentic multimodal intelligence can be achieved through carefully curated supervised learning alone, without any reliance on reinforcement learning.
- Abstract(参考訳): 近年のマルチモーダルエージェントシステムの発展にもかかわらず、既存のアプローチでは画像操作やWeb検索を非結合性として扱うことが多く、コストのかかる強化学習に大きく依存しており、実際のツール実行トレースに根ざした計画が欠如している。
これらの制約に対処するため,30B(A3B)パラメータのマルチモーダルエージェントモデルであるSkywork-R1V4を提案する。
3万件未満の高品質な計画-実行-整合性軌道の監督による微調整のみで訓練され、段階的に整合性フィルタリングによって検証され、Skywork-R1V4は認識とマルチモーダル検索のベンチマークで最先端の結果を得る:MMSearchで66.1、FVQAで67.2、Gemini 2.5 Flashを全11指標で上回っている。
Skywork-R1V4は推論時に突発的なロングホライゾン推論を示し、複雑なマルチステップタスクを解決するために10以上のツールコールを編成することに成功した。
本研究は, 強化学習に頼らずに, 教師付き学習だけで高度なエージェント・マルチモーダル・インテリジェンスを実現することができることを示す。
関連論文リスト
- Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search [85.201906907271]
Mini-o3は、数十ステップにわたる深いマルチターン推論を実行するシステムである。
OpenAI o3スタイルの動作を再現するためのレシピは、3つのキーコンポーネントから構成される。
大規模な実験により、Mini-o3は豊かな推論パターンと深い思考経路を生み出すことが示された。
論文 参考訳(メタデータ) (2025-09-09T17:54:21Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - ContextualLVLM-Agent: A Holistic Framework for Multi-Turn Visually-Grounded Dialogue and Complex Instruction Following [0.2999888908665658]
MMDR-Bench(Multi-Modal Dialogue Reasoning Benchmark)は,300の複雑なマルチターン対話シナリオからなる新しいデータセットである。
また,既存のLVLMを高度な推論と命令追従機能で拡張する包括的フレームワークであるCoLVLM Agent(Contextual LVLM Agent)を提案する。
MMDR-Benchを用いた実験により,CoLVLM Agentは高い性能を示し,平均評価スコアは4.03。
論文 参考訳(メタデータ) (2025-08-21T02:09:02Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。