論文の概要: ProxyThinker: Test-Time Guidance through Small Visual Reasoners
- arxiv url: http://arxiv.org/abs/2505.24872v1
- Date: Fri, 30 May 2025 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.131187
- Title: ProxyThinker: Test-Time Guidance through Small Visual Reasoners
- Title(参考訳): ProxyThinker:小さなビジュアル推論によるテスト時間ガイダンス
- Authors: Zilin Xiao, Jaywon Koo, Siru Ouyang, Jefferson Hernandez, Yu Meng, Vicente Ordonez,
- Abstract要約: ProxyThinkerは、大規模なモデルで、訓練なしに、小さく、ゆっくりと考えられた視覚的推論能力を継承できる推論時手法である。
RFTの推論者からベースモデルの出力を減じることで、プロクシーティンカーは自己検証や自己補正のような出現した振る舞いによって証明される緩やかな思考的推論を導き出す。
本実装では,複数の言語モデルを並列化手法で効率的にコーディネートし,従来の復号時間法と比較して最大38$timesの高速推論を実現する。
- 参考スコア(独自算出の注目度): 15.901647765066784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of the visual reasoning capabilities in large vision-language models (LVLMs). However, training LVLMs with reinforcement fine-tuning (RFT) is computationally expensive, posing a significant challenge to scaling model size. In this work, we propose ProxyThinker, an inference-time technique that enables large models to inherit the visual reasoning capabilities from small, slow-thinking visual reasoners without any training. By subtracting the output distributions of base models from those of RFT reasoners, ProxyThinker modifies the decoding dynamics and successfully elicits the slow-thinking reasoning demonstrated by the emerged sophisticated behaviors such as self-verification and self-correction. ProxyThinker consistently boosts performance on challenging visual benchmarks on spatial, mathematical, and multi-disciplinary reasoning, enabling untuned base models to compete with the performance of their full-scale RFT counterparts. Furthermore, our implementation efficiently coordinates multiple language models with parallelism techniques and achieves up to 38 $\times$ faster inference compared to previous decoding-time methods, paving the way for the practical deployment of ProxyThinker. Code is available at https://github.com/MrZilinXiao/ProxyThinker.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習の最近の進歩は、大規模視覚言語モデル(LVLM)における視覚推論能力の境界を押し上げている。
しかし、強化微調整(RFT)によるLVLMのトレーニングは計算コストが高く、モデルサイズを拡大する上で大きな課題となっている。
本研究では,大規模モデルによる視覚的推論能力の継承を可能にする推論時手法であるProxyThinkerを提案する。
RFT推論器からベースモデルの出力分布を減じることにより、ProxyThinkerは復号力学を改良し、自己検証や自己補正といった先進的な洗練された振る舞いによって証明された緩やかな思考的推論を引き出すことに成功した。
ProxyThinkerは、空間的、数学的、多分野の推論に関する挑戦的なビジュアルベンチマークのパフォーマンスを継続的に向上させ、未調整のベースモデルがフルスケールのRFTモデルのパフォーマンスと競合できるようにする。
さらに,並列化手法を用いて複数の言語モデルを効率的にコーディネートし,従来の復号時間法と比較して最大38$\times$の高速推論を実現し,ProxyThinkerの実用化への道を開いた。
コードはhttps://github.com/MrZilinXiao/ProxyThinker.comで入手できる。
関連論文リスト
- Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。
我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。
我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文 参考訳(メタデータ) (2025-04-10T17:41:56Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。