論文の概要: Skywork-R1V3 Technical Report
- arxiv url: http://arxiv.org/abs/2507.06167v3
- Date: Thu, 10 Jul 2025 15:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.082463
- Title: Skywork-R1V3 Technical Report
- Title(参考訳): スカイワークR1V3技術報告
- Authors: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao, Peiyu Wang, Jianhao Zhang, Yahui Zhou,
- Abstract要約: 先進的でオープンソースの視覚言語モデル(VLM)であるSkywork-R1V3を紹介する。
主要なイノベーションは、推論スキルをテキストのみの大規模言語モデルから視覚タスクに効果的に移行することにある。
重要な推論トークンのエントロピーである推論能力のユニークな指標を導入し,チェックポイント選択に極めて有効であることが証明された。
- 参考スコア(独自算出の注目度): 14.952041273882639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Skywork-R1V3, an advanced, open-source vision-language model (VLM) that pioneers a new approach to visual reasoning. Its key innovation lies in effectively transferring reasoning skills from text-only Large Language Models (LLMs) to visual tasks. The strong performance of Skywork-R1V3 primarily stems from our elaborate post-training RL framework, which effectively activates and enhances the model's reasoning ability, without the need for additional continue pre-training. Through this framework, we further uncover the fundamental role of the connector module in achieving robust cross-modal alignment for multimodal reasoning models. In addition, we introduce a unique indicator of reasoning capability, the entropy of critical reasoning tokens, which has proven highly effective for checkpoint selection during RL training. Skywork-R1V3 achieves state-of-the-art results on MMMU, significantly improving from 64.3% to 76.0%. This performance matches entry-level human capabilities. Remarkably, our RL-powered post-training approach enables even the 38B parameter model to rival top closed-source VLMs. The implementation successfully transfers mathematical reasoning to other subject-related reasoning tasks. We also include an analysis of curriculum learning and reinforcement finetuning strategies, along with a broader discussion on multimodal reasoning. Skywork-R1V3 represents a significant leap in multimodal reasoning, showcasing RL as a powerful engine for advancing open-source VLM capabilities.
- Abstract(参考訳): 先進的でオープンソースの視覚言語モデル(VLM)であるSkywork-R1V3を紹介する。
その重要な革新は、推論スキルをテキストのみの大規模言語モデル(LLM)から視覚タスクに効果的に移行することである。
Skywork-R1V3の強力な性能は、継続事前学習を必要とせず、効果的にモデルの推論能力を活性化し、強化する我々の精巧な後学習RLフレームワークに起因している。
この枠組みを通じて,マルチモーダル推論モデルに対する堅牢なクロスモーダルアライメントを実現する上で,コネクタモジュールの基本的な役割を明らかにする。
さらに,重要な推論トークンのエントロピーである推論能力のユニークな指標を導入し,RLトレーニング中のチェックポイント選択に極めて有効であることが証明された。
Skywork-R1V3はMMMUで最先端の結果を達成し、64.3%から76.0%に大幅に改善した。
この性能はエントリーレベルの人間の能力と一致します。
注目すべきは、我々のRLを用いたポストトレーニングアプローチは、38BパラメータモデルでさえトップクローズソースVLMと競合することを可能にすることである。
この実装は、数学的推論を他の主題に関連した推論タスクに伝達することに成功している。
また,カリキュラム学習と強化ファインタニング戦略の分析や,マルチモーダル推論に関するより広範な議論も含んでいる。
Skywork-R1V3はマルチモーダル推論における飛躍的な飛躍であり、RLはオープンソースのVLM能力を向上するための強力なエンジンであることを示している。
関連論文リスト
- Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start [24.244577648817188]
アハモーメント」パターンは強化学習(RL)の創発的特性に起因することが多い
本稿では,2段階アプローチによるマルチモーダル推論の強化に関する総合的研究について述べる。
実験の結果,この組み合わせはSFTのみの手法とRLのみの手法より一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-28T13:21:38Z) - Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-23T10:18:41Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。