Fugu-MT 論文翻訳(概要): ProxyThinker: Test-Time Guidance through Small Visual Reasoners

論文の概要: ProxyThinker: Test-Time Guidance through Small Visual Reasoners

arxiv url: http://arxiv.org/abs/2505.24872v1
Date: Fri, 30 May 2025 17:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:53.131187
Title: ProxyThinker: Test-Time Guidance through Small Visual Reasoners
Title（参考訳）: ProxyThinker:小さなビジュアル推論によるテスト時間ガイダンス
Authors: Zilin Xiao, Jaywon Koo, Siru Ouyang, Jefferson Hernandez, Yu Meng, Vicente Ordonez,
Abstract要約: ProxyThinkerは、大規模なモデルで、訓練なしに、小さく、ゆっくりと考えられた視覚的推論能力を継承できる推論時手法である。 RFTの推論者からベースモデルの出力を減じることで、プロクシーティンカーは自己検証や自己補正のような出現した振る舞いによって証明される緩やかな思考的推論を導き出す。本実装では,複数の言語モデルを並列化手法で効率的にコーディネートし,従来の復号時間法と比較して最大38$timesの高速推論を実現する。
参考スコア（独自算出の注目度）: 15.901647765066784
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of the visual reasoning capabilities in large vision-language models (LVLMs). However, training LVLMs with reinforcement fine-tuning (RFT) is computationally expensive, posing a significant challenge to scaling model size. In this work, we propose ProxyThinker, an inference-time technique that enables large models to inherit the visual reasoning capabilities from small, slow-thinking visual reasoners without any training. By subtracting the output distributions of base models from those of RFT reasoners, ProxyThinker modifies the decoding dynamics and successfully elicits the slow-thinking reasoning demonstrated by the emerged sophisticated behaviors such as self-verification and self-correction. ProxyThinker consistently boosts performance on challenging visual benchmarks on spatial, mathematical, and multi-disciplinary reasoning, enabling untuned base models to compete with the performance of their full-scale RFT counterparts. Furthermore, our implementation efficiently coordinates multiple language models with parallelism techniques and achieves up to 38 $\times$ faster inference compared to previous decoding-time methods, paving the way for the practical deployment of ProxyThinker. Code is available at https://github.com/MrZilinXiao/ProxyThinker.
Abstract（参考訳）: 検証可能な報酬を伴う強化学習の最近の進歩は、大規模視覚言語モデル(LVLM)における視覚推論能力の境界を押し上げている。しかし、強化微調整(RFT)によるLVLMのトレーニングは計算コストが高く、モデルサイズを拡大する上で大きな課題となっている。本研究では,大規模モデルによる視覚的推論能力の継承を可能にする推論時手法であるProxyThinkerを提案する。 RFT推論器からベースモデルの出力分布を減じることにより、ProxyThinkerは復号力学を改良し、自己検証や自己補正といった先進的な洗練された振る舞いによって証明された緩やかな思考的推論を引き出すことに成功した。 ProxyThinkerは、空間的、数学的、多分野の推論に関する挑戦的なビジュアルベンチマークのパフォーマンスを継続的に向上させ、未調整のベースモデルがフルスケールのRFTモデルのパフォーマンスと競合できるようにする。さらに,並列化手法を用いて複数の言語モデルを効率的にコーディネートし,従来の復号時間法と比較して最大38$\times$の高速推論を実現し,ProxyThinkerの実用化への道を開いた。コードはhttps://github.com/MrZilinXiao/ProxyThinker.comで入手できる。

関連論文リスト

Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文参考訳（メタデータ） (2025-05-23T08:18:00Z)
Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-09T02:51:22Z)
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文参考訳（メタデータ） (2025-04-18T19:32:55Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。 Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文参考訳（メタデータ） (2025-03-31T17:55:23Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。