論文の概要: R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
- arxiv url: http://arxiv.org/abs/2508.21113v1
- Date: Thu, 28 Aug 2025 17:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.83668
- Title: R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning
- Title(参考訳): R-4B:バイモードアニーリングと強化学習によるMLLMの汎用オートシンキング能力のインセンティブ化
- Authors: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng,
- Abstract要約: 実験の結果,R-4Bは25の挑戦ベンチマークで最先端の性能を達成できた。
Kimi-VL-A3B-Thinking-2506 (16B) のような大規模モデルに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 38.74501281986792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities using bi-mode annealing, and apply Bi-mode Policy Optimization~(BPO) to improve the model's accuracy in determining whether to activate the thinking process. Specifically, we first train the model on a carefully curated dataset spanning various topics, which contains samples from both thinking and non-thinking modes. Then it undergoes a second phase of training under an improved GRPO framework, where the policy model is forced to generate responses from both modes for each input query. Experimental results show that R-4B achieves state-of-the-art performance across 25 challenging benchmarks. It outperforms Qwen2.5-VL-7B in most tasks and achieves performance comparable to larger models such as Kimi-VL-A3B-Thinking-2506 (16B) on reasoning-intensive benchmarks with lower computational cost.
- Abstract(参考訳): ステップバイステップの思考能力を備えたMLLM(Multimodal Large Language Models)は,複雑な推論問題において顕著な性能を示した。
しかし、この思考過程は複雑な推論なしで解決可能な単純な問題に対して冗長である。
この非効率性に対処するために,問題複雑性に基づいていつ考えるべきかを適応的に決定できる自動思考型MLLMのR-4Bを提案する。
R-4Bの中心的な考え方は、バイモードアニールを用いた思考能力と非思考能力の両方でモデルを強化し、バイモードポリシー最適化~(BPO)を適用して、思考プロセスの活性化を決定する際のモデルの精度を向上させることである。
具体的には、まず、思考モードと非思考モードの両方のサンプルを含む、さまざまなトピックにまたがる慎重にキュレートされたデータセットでモデルをトレーニングする。
次に、改良されたGRPOフレームワークの下で第2フェーズのトレーニングを行い、各入力クエリに対して、ポリシーモデルが両方のモードからレスポンスを生成するように強制される。
実験の結果,R-4Bは25の挑戦ベンチマークで最先端の性能を達成できた。
これはほとんどのタスクにおいてQwen2.5-VL-7Bより優れており、計算コストの低い推論集約ベンチマークでKim-VL-A3B-Thinking-2506 (16B)のようなより大きなモデルに匹敵する性能を達成する。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Think Only When You Need with Large Hybrid-Reasoning Models [121.55211364358662]
LHRM(Large Hybrid-Reasoning Model)
ユーザクエリのコンテキスト情報に基づいて思考を行うか否かを適応的に決定できるモデル。
実験の結果, LHRMsは, 様々な難易度, 種別の問合せに対して, 適応的にハイブリッド思考を行うことができた。
論文 参考訳(メタデータ) (2025-05-20T17:23:25Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。