論文の概要: Puzzle Curriculum GRPO for Vision-Centric Reasoning
- arxiv url: http://arxiv.org/abs/2512.14944v1
- Date: Tue, 16 Dec 2025 22:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.798862
- Title: Puzzle Curriculum GRPO for Vision-Centric Reasoning
- Title(参考訳): 視覚中心推論のためのパズルカリキュラムGRPO
- Authors: Ahmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk,
- Abstract要約: 本稿では,PC-GRPO(Puzzle Curriculum GRPO)について紹介する。
PC- GRPO はラベルを PatchFit と Rotation (バイナリ報酬付き) と Jigsaw (部分クレジット緩和報酬幅のグレード付き) の3つの自己教師型パズル環境に置き換える
平らな報酬に対処し,グループ相対的優位性を解消するために,サンプルやピークを動的に重み付けする難易度対応カリキュラムを中難度で導入する。
- 参考スコア(独自算出の注目度): 7.117453620224407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning (RL) approaches like outcome-supervised GRPO have advanced chain-of-thought reasoning in Vision Language Models (VLMs), yet key issues linger: (i) reliance on costly and noisy hand-curated annotations or external verifiers; (ii) flat and sparse reward schemes in GRPO; and (iii) logical inconsistency between a chain's reasoning and its final answer. We present Puzzle Curriculum GRPO (PC-GRPO), a supervision-free recipe for RL with Verifiable Rewards (RLVR) that strengthens visual reasoning in VLMs without annotations or external verifiers. PC-GRPO replaces labels with three self-supervised puzzle environments: PatchFit, Rotation (with binary rewards) and Jigsaw (with graded partial credit mitigating reward sparsity). To counter flat rewards and vanishing group-relative advantages, we introduce a difficulty-aware curriculum that dynamically weights samples and peaks at medium difficulty. We further monitor Reasoning-Answer Consistency (RAC) during post-training: mirroring reports for vanilla GRPO in LLMs, RAC typically rises early then degrades; our curriculum delays this decline, and consistency-enforcing reward schemes further boost RAC. RAC correlates with downstream accuracy. Across diverse benchmarks and on Qwen-7B and Qwen-3B backbones, PC-GRPO improves reasoning quality, training stability, and end-task accuracy, offering a practical path to scalable, verifiable, and interpretable RL post-training for VLMs.
- Abstract(参考訳): 近年の強化学習 (RL) アプローチでは、GRPO は視覚言語モデル (VLM) において先進的な連鎖推論がされているが、重要な問題である。
一 費用のかかる手作業の注釈又は外部検証書に依拠すること。
(二)GRPOにおける平坦でまばらな報酬制度及び
三 チェーンの推論と最終回答の論理的矛盾
本稿では、アノテーションや外部検証なしでVLMの視覚的推論を強化するRLの監督不要なレシピであるPuzzle Curriculum GRPO(PC-GRPO)を提案する。
PC-GRPOは、ラベルを、PatchFit、Rotation(バイナリ報酬付き)、Jigsaw(部分クレジット緩和報酬幅のグレード付き)の3つの自己教師型パズル環境に置き換える。
平らな報酬に対処し,グループ相対的優位性を解消するために,サンプルやピークを動的に重み付けする難易度対応カリキュラムを中難度で導入する。
トレーニング後のRAC(Reasoning-Answer Consistency)はさらに監視する: LLMにおけるvanilla GRPOのミラーリング報告、RACは一般的に早期に上昇して劣化し、カリキュラムはこの低下を遅らせ、一貫性を増す報酬スキームはさらにRACを増加させる。
RACは下流の精度と相関する。
様々なベンチマークとQwen-7BとQwen-3Bのバックボーンにおいて、PC-GRPOは推論品質、トレーニング安定性、エンドタスク精度を改善し、VLMのスケーラビリティ、検証可能、解釈可能なRLポストトレーニングへの実践的なパスを提供する。
関連論文リスト
- Empowering Multi-Turn Tool-Integrated Reasoning with Group Turn Policy Optimization [20.004150645050537]
Group Turn Policy Optimization (GTPO) は、多ターンツール統合推論タスクにおける大規模言語モデル(LLM)のトレーニング用に設計された、新しい強化学習アルゴリズムである。
GTPOは、各ターンに対してきめ細かいフィードバックを提供するターンレベルの報酬割り当て、リターンベースの利点推定、自己監督型報酬形成という3つの重要なイノベーションを導入している。
総合評価の結果、GTPOは様々な推論ベンチマークでGRPOを平均3.0%上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-18T19:01:16Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。