論文の概要: ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
- arxiv url: http://arxiv.org/abs/2510.10606v1
- Date: Sun, 12 Oct 2025 13:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.029259
- Title: ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models
- Title(参考訳): ViSurf: 大きな視覚・言語モデルのための視覚的監視・強化ファインチューニング
- Authors: Yuqi Liu, Liangyu Chen, Jiazhen Liu, Mingkang Zhu, Zhisheng Zhong, Bei Yu, Jiaya Jia,
- Abstract要約: Supervised Fine-Tuning (SFT) と Reinforcement Learning with Verifiable Rewards (RLVR) は、LVLM(Large Vision-and-Language Models)の典型的なポストトレーニングパラダイムである。
本研究では,SFTとRLVRの長所を1段階にまとめる統合後学習パラダイムViSurfを提案する。
ViSurfの中核は、RLVRのロールアウトに基調ラベルを注入することであり、同時に外部監視と内部強化を提供する。
- 参考スコア(独自算出の注目度): 52.819394001139955
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Typical post-training paradigms for Large Vision-and-Language Models (LVLMs) include Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR). SFT leverages external guidance to inject new knowledge, whereas RLVR utilizes internal reinforcement to enhance reasoning capabilities and overall performance. However, our analysis reveals that SFT often leads to sub-optimal performance, while RLVR struggles with tasks that exceed the model's internal knowledge base. To address these limitations, we propose ViSurf (\textbf{Vi}sual \textbf{Su}pervised-and-\textbf{R}einforcement \textbf{F}ine-Tuning), a unified post-training paradigm that integrates the strengths of both SFT and RLVR within a single stage. We analyze the derivation of the SFT and RLVR objectives to establish the ViSurf objective, providing a unified perspective on these two paradigms. The core of ViSurf involves injecting ground-truth labels into the RLVR rollouts, thereby providing simultaneous external supervision and internal reinforcement. Furthermore, we introduce three novel reward control strategies to stabilize and optimize the training process. Extensive experiments across several diverse benchmarks demonstrate the effectiveness of ViSurf, outperforming both individual SFT, RLVR, and two-stage SFT \textrightarrow RLVR. In-depth analysis corroborates these findings, validating the derivation and design principles of ViSurf.
- Abstract(参考訳): LVLM(Large Vision-and-Language Models)の典型的なポストトレーニングパラダイムには、Supervised Fine-Tuning (SFT)とReinforcement Learning with Verifiable Rewards (RLVR)がある。
SFTは新しい知識を注入するために外部ガイダンスを活用する一方、RLVRは推論能力と全体的な性能を高めるために内部強化を利用する。
しかし,本分析の結果から,SFTは内部知識を超越した課題に苦戦する一方,SFTは準最適性能をもたらすことが判明した。
これらの制約に対処するため、SFTとRLVRの長所を1段階で統合した統合後学習パラダイムであるViSurf(\textbf{Vi}sual \textbf{Su}pervised-and-\textbf{R}einforcement \textbf{F}ine-Tuning)を提案する。
我々は、SFTとRLVRの目的の導出を分析し、ViSurfの目的を確立する。
ViSurfの中核は、RLVRのロールアウトに基調ラベルを注入することであり、同時に外部監視と内部強化を提供する。
さらに,トレーニングプロセスの安定化と最適化のために,新たな3つの報酬制御戦略を導入する。
様々なベンチマークによる大規模な実験により、ViSurfの有効性が示され、個々のSFT、RLVR、および2段階のSFT \textrightarrow RLVRよりも優れていた。
詳細な分析は、これらの発見を裏付け、ViSurfの派生と設計原則を検証している。
関連論文リスト
- Empowering Small VLMs to Think with Dynamic Memorization and Exploration [5.2613925143497635]
信頼性の高い思考能力を持つ小型ビジョンランゲージモデル(SVLM)は、基本的には困難である。
Supervised Fine-Tuning (SFT) や Reinforcement Learning with Verifiable Reward (RLVR) といった既存のトレーニングパラダイムは、ベースVLMにかなりの要求を課している。
我々は,各最適化ステップで(SFT経由)記憶モードと(RLVR経由)探索モードを動的に選択する新しいトレーニングパラダイムであるDyMEを提案する。
論文 参考訳(メタデータ) (2025-06-29T02:19:51Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。