論文の概要: Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2507.05255v1
- Date: Mon, 07 Jul 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.562139
- Title: Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning
- Title(参考訳): Open Vision Reasoner: 視覚的推論のための言語的認知行動の伝達
- Authors: Yana Wei, Liang Zhao, Jianjian Sun, Kangheng Lin, Jisheng Yin, Jingcheng Hu, Yinmin Zhang, En Yu, Haoran Lv, Zejia Weng, Jia Wang, Chunrui Han, Yuang Peng, Qi Han, Zheng Ge, Xiangyu Zhang, Daxin Jiang, Vishal M. Patel,
- Abstract要約: 本稿では,Qwen2.5-VL-7Bに基づく2段階のパラダイムを提案する。
この先駆的な研究は、3つの基本的な洞察を明らかにしている: 1) 行動伝達は、言語的精神イメージによる冷戦開始時に驚くほど早く出現し、2) 冷戦開始は、視覚行動を広く記憶し、RLは、効果的パターンを批判的に識別し、スケールアップする。
得られたモデルであるOpen-Vision-Reasoner (OVR)は、MATH500で95.3%、MathVisionで51.8%、54.6%を含む一連の推論ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 60.292578064172524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable reasoning capability of large language models (LLMs) stems from cognitive behaviors that emerge through reinforcement with verifiable rewards. This work investigates how to transfer this principle to Multimodal LLMs (MLLMs) to unlock advanced visual reasoning. We introduce a two-stage paradigm built on Qwen2.5-VL-7B: a massive linguistic cold-start fine-tuning, followed by multimodal reinforcement learning (RL) spanning nearly 1,000 steps, surpassing all previous open-source efforts in scale. This pioneering work reveals three fundamental insights: 1) Behavior transfer emerges surprisingly early in cold start due to linguistic mental imagery. 2) Cold start broadly memorizes visual behaviors, while RL critically discerns and scales up effective patterns. 3) Transfer strategically favors high-utility behaviors such as visual reflection. Our resulting model, Open-Vision-Reasoner (OVR), achieves state-of-the-art performance on a suite of reasoning benchmarks, including 95.3% on MATH500, 51.8% on MathVision and 54.6% on MathVerse. We release our model, data, and training dynamics to catalyze the development of more capable, behavior-aligned multimodal reasoners.
- Abstract(参考訳): 大きな言語モデル(LLM)の顕著な推論能力は、検証可能な報酬による強化によって生じる認知行動に起因している。
本研究では,この原理をMLLM(Multimodal LLM)に変換して,高度な視覚的推論を解き放つ方法について検討する。
本稿では,Qwen2.5-VL-7B上に構築された2段階のパラダイムについて紹介する。
この先駆的な研究は3つの基本的な洞察を明らかにしている。
1) 行動伝達は, 言語的精神イメージにより, 冷え始めると驚くほど早く現れる。
2) コールドスタートは視覚行動を広く記憶し, RLは効果的パターンを批判的に識別し, スケールアップする。
3)移動は視覚反射などの高ユーティリティな行動に戦略的に有利である。
得られたモデルであるOpen-Vision-Reasoner (OVR)は、MATH500の95.3%、MathVisionの51.8%、MathVerseの54.6%を含む一連の推論ベンチマークで最先端のパフォーマンスを達成する。
我々は、より有能な行動整合型マルチモーダル推論器の開発を促進するために、モデル、データ、およびトレーニングダイナミクスをリリースする。
関連論文リスト
- Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。