論文の概要: All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.00479v1
- Date: Wed, 01 Apr 2026 04:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.83757
- Title: All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models
- Title(参考訳): すべての道がローマに通じる - ビジョンランゲージモデルにおけるダイバージェント思考のインセンティブ
- Authors: Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Peter Tu, Jing Zhang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、視覚言語モデル(VLM)の推論能力を高める。
GRPOは多様性の崩壊を起こしやすいことを示し、モデルが早期に推論戦略の限られたサブセットに収束することを示した。
マルチグループ政策最適化(MUPO: Multi-Group Policy Optimization)は,複数のソリューションにまたがる多元的思考の動機付けを目的とした,シンプルかつ効果的なアプローチである。
- 参考スコア(独自算出の注目度): 19.093820590411266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have demonstrated that Reinforcement Learning (RL), notably Group Relative Policy Optimization (GRPO), can intrinsically elicit and enhance the reasoning capabilities of Vision-Language Models (VLMs). However, despite the promise, the underlying mechanisms that drive the effectiveness of RL models as well as their limitations remain underexplored. In this paper, we highlight a fundamental behavioral distinction between RL and base models, where the former engages in deeper yet narrow reasoning, while base models, despite less refined along individual path, exhibit broader and more diverse thinking patterns. Through further analysis of training dynamics, we show that GRPO is prone to diversity collapse, causing models to prematurely converge to a limited subset of reasoning strategies while discarding the majority of potential alternatives, leading to local optima and poor scalability. To address this, we propose Multi-Group Policy Optimization (MUPO), a simple yet effective approach designed to incentivize divergent thinking across multiple solutions, and demonstrate its effectiveness on established benchmarks. Project page: https://xytian1008.github.io/MUPO/
- Abstract(参考訳): 近年、強化学習(Reinforcement Learning, RL)、特にGRPO(Group Relative Policy Optimization, Group Relative Policy Optimization, GRPO)が、視覚言語モデル(VLM)の推論能力を内在的に引き起こし、向上させることが示されている。
しかし、その約束にもかかわらず、RLモデルの有効性とそれらの制限を駆動する基盤となるメカニズムは、まだ未解明のままである。
本稿では、RLモデルとベースモデルとの基本的な行動的差異を強調し、前者がより深く、狭義の推論を行う一方、基本モデルは、個々の経路に沿って洗練されていないにもかかわらず、より広範で多様な思考パターンを示す。
トレーニングダイナミクスのさらなる解析を通じて,GRPOは多様性の崩壊を招き,モデルが推論戦略の限られたサブセットに早急に収束し,潜在的な選択肢の大多数を放棄し,局所最適性やスケーラビリティの低下につながることを示す。
そこで本研究では,複数のソリューションにまたがる分散思考の動機付けを目的とした,シンプルかつ効果的なアプローチであるMulti-Group Policy Optimization (MUPO)を提案する。
プロジェクトページ:https://xytian1008.github.io/MUPO/
関連論文リスト
- Evaluating GRPO and DPO for Faithful Chain-of-Thought Reasoning in LLMs [0.7045900712659982]
大型言語モデル(LLM)の問題解決能力向上のための強力な手法として、チェーン・オブ・シント推論(CoT)が登場している。
論文 参考訳(メタデータ) (2025-12-27T16:07:00Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [23.00801828244201]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。