論文の概要: S-GRPO: Unified Post-Training for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.16557v1
- Date: Fri, 17 Apr 2026 08:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.070931
- Title: S-GRPO: Unified Post-Training for Large Vision-Language Models
- Title(参考訳): S-GRPO:大規模視線モデルのための統合後トレーニング
- Authors: Yuming Yan, Kai Tang, Sihong Chen, Ke Xu, Dan Hu, Qun Yu, Pengfei Hu,
- Abstract要約: 我々はLVLM(Large Vision-Language Models)適応のためのS-GRPO(Supervised Group Relative Policy Optimization)を提案する。
S-GRPOは、模擬学習の指導を選好最適化の多軌道探索に統合する。
監督ファインチューニング(SFT)と強化学習(RL)のギャップを優雅に埋める
- 参考スコア(独自算出の注目度): 11.901218794806796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current post-training methodologies for adapting Large Vision-Language Models (LVLMs) generally fall into two paradigms: Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). Despite their prevalence, both approaches suffer from inefficiencies when applied in isolation. SFT forces the model's generation along a single expert trajectory, often inducing catastrophic forgetting of general multimodal capabilities due to distributional shifts. Conversely, RL explores multiple generated trajectories but frequently encounters optimization collapse - a cold-start problem where an unaligned model fails to spontaneously sample any domain-valid trajectories in sparse-reward visual tasks. In this paper, we propose Supervised Group Relative Policy Optimization (S-GRPO), a unified post-training framework that integrates the guidance of imitation learning into the multi-trajectory exploration of preference optimization. Tailored for direct-generation visual tasks, S-GRPO introduces Conditional Ground-Truth Trajectory Injection (CGI). When a binary verifier detects a complete exploratory failure within a sampled group of trajectories, CGI injects the verified ground-truth trajectory into the candidate pool. By assigning a deterministic maximal reward to this injected anchor, S-GRPO enforces a positive signal within the group-relative advantage estimation. This mechanism reformulates the supervised learning objective as a high-advantage component of the policy gradient, compelling the model to dynamically balance between exploiting the expert trajectory and exploring novel visual concepts. Theoretical analysis and empirical results demonstrate that S-GRPO gracefully bridges the gap between SFT and RL, drastically accelerates convergence, and achieves superior domain adaptation while preserving the base model's general-purpose capabilities.
- Abstract(参考訳): 現在、LVLM(Large Vision-Language Models)を適応するための訓練後の方法論は、一般的に2つのパラダイム(Supervised Fine-Tuning (SFT)とReinforcement Learning (RL))に分類される。
その流行にもかかわらず、どちらのアプローチも単独で適用した場合、非効率に悩まされる。
SFTはモデル生成を1つの専門家軌道に沿って強制し、しばしば分布シフトによる一般的なマルチモーダル能力の破滅的な忘れを招きかねない。
逆に、RLは複数の生成された軌道を探索するが、しばしば最適化の崩壊に遭遇する。
本稿では、模擬学習の指導を優先最適化の多軌道探索に統合した統合後学習フレームワークであるSupervised Group Relative Policy Optimization (S-GRPO)を提案する。
S-GRPOは、直接世代の視覚タスク用に設計された、条件付き地上軌道注入(Conditional Ground-Truth Trajectory Injection, CGI)を導入している。
バイナリ検証器が標本化された軌道群内の完全な探索的失敗を検出すると、CGIは検証済みの地上軌道を候補プールに注入する。
この注入されたアンカーに決定論的最大報酬を割り当てることで、S-GRPOはグループ相対的優位推定の中に正のシグナルを強制する。
このメカニズムは、教師付き学習目標を政策勾配の高アドバンテージな要素として再構成し、専門家の軌跡の活用と新しい視覚概念の探索の間に動的にバランスをとるようモデルに促す。
S-GRPOはSFTとRLのギャップを優雅に埋め、収束を劇的に加速し、ベースモデルの汎用能力を保ちながら優れたドメイン適応を実現する。
関連論文リスト
- GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification [37.24414986596345]
Group Fine-Tuning (GFT) は、大規模言語モデルのための統合後トレーニングフレームワークである。
GFTは一貫してSFTベースの手法を超越し、その後のRLトレーニングとよりスムーズな統合を図っている。
論文 参考訳(メタデータ) (2026-04-15T15:49:58Z) - OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - A First-Order Logic-Based Alternative to Reward Models in RLHF [0.0]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の価値観と嗜好の整合において重要な役割を果たす。
既存のアプローチは報酬モデルに大きく依存し、言語モデルから人間に沿った行動へと導く。
本稿では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
論文 参考訳(メタデータ) (2025-12-16T05:15:17Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。