論文の概要: Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.16854v1
- Date: Thu, 22 May 2025 16:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.444911
- Title: Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための強化学習による選択的推論
- Authors: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou,
- Abstract要約: TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
- 参考スコア(独自算出の注目度): 45.33952788910874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has proven to be an effective post-training strategy for enhancing reasoning in vision-language models (VLMs). Group Relative Policy Optimization (GRPO) is a recent prominent method that encourages models to generate complete reasoning traces before answering, leading to increased token usage and computational cost. Inspired by the human-like thinking process-where people skip reasoning for easy questions but think carefully when needed-we explore how to enable VLMs to first decide when reasoning is necessary. To realize this, we propose TON, a two-stage training strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective 'thought dropout' operation, where reasoning traces are randomly replaced with empty thoughts. This introduces a think-or-not format that serves as a cold start for selective reasoning; (ii) a GRPO stage that enables the model to freely explore when to think or not, while maximizing task-aware outcome rewards. Experimental results show that TON can reduce the completion length by up to 90% compared to vanilla GRPO, without sacrificing performance or even improving it. Further evaluations across diverse vision-language tasks-covering a range of reasoning difficulties under both 3B and 7B models-consistently reveal that the model progressively learns to bypass unnecessary reasoning steps as training advances. These findings shed light on the path toward human-like reasoning patterns in reinforcement learning approaches. Our code is available at https://github.com/kokolerk/TON.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、視覚言語モデル(VLM)における推論を強化する効果的な後学習戦略であることが証明されている。
グループ相対政策最適化(GRPO)は、応答前にモデルが完全な推論トレースを生成することを奨励する最近の顕著な手法であり、トークンの使用量と計算コストが増加する。
人間のような思考プロセスにインスパイアされた人々は、簡単な質問の推論を省略するが、必要であれば慎重に考える。
これを実現するために,2段階のトレーニング戦略であるTONを提案する。
(i) 教師付き微調整(SFT) 段階において, 推論トレースをランダムに空の思考に置き換える, シンプルで効果的な「思考ドロップアウト」操作を行う。
これは、選択的推論のコールドスタートとして機能するシンクまたはノットフォーマットを導入する。
(2)タスク認識結果の報酬を最大化しつつ、モデルがいつ考えるべきかを自由に探索できるGRPOステージ。
実験の結果,TONはバニラGRPOと比較して最大90%の完成期間を短縮できることがわかった。
3Bモデルと7Bモデルの両方において、様々な視覚言語タスクに対するさらなる評価は、トレーニングが進むにつれて、不要な推論ステップを回避し、段階的に学習することを明らかにする。
これらの知見は、強化学習アプローチにおける人間のような推論パターンへの道筋に光を当てた。
私たちのコードはhttps://github.com/kokolerk/TON.comで利用可能です。
関連論文リスト
- Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - AdaptThink: Reasoning Models Can Learn When to Think [42.77877234302026]
本稿では,問題難易度に基づいて最適な思考モードを選択するために推論モデルを教える新しいRLアルゴリズムであるAdaptThinkを提案する。
実験の結果,AdaptThinkは推論コストを大幅に削減し,性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2025-05-19T17:50:52Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。