論文の概要: Reinforced Visual Perception with Tools
- arxiv url: http://arxiv.org/abs/2509.01656v1
- Date: Mon, 01 Sep 2025 17:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.806808
- Title: Reinforced Visual Perception with Tools
- Title(参考訳): ツールによる強化された視覚知覚
- Authors: Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna,
- Abstract要約: 本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
- 参考スコア(独自算出の注目度): 66.79840157663237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning, a cornerstone of human intelligence, encompasses complex perceptual and logical processes essential for solving diverse visual problems. While advances in computer vision have produced powerful models for various perceptual tasks, leveraging these for general visual reasoning remains challenging. Prior work demonstrates that augmenting LLMs with vision models via supervised finetuning improves performance, but faces key limitations such as expensive data generation, reliance on careful data filtering, and poor generalization. To address these issues, we propose ReVPT to enhance multi-modal LLMs' abilities to reason about and use visual tools through reinforcement learning. We introduce a novel RL algorithm based on GRPO, designed to train models to reason with a suite of four visual tools. Through extensive experiments, we show that our method achieves state-of-the-art performance on several perception-heavy benchmarks, including SAT, CV-Bench, BLINK and MMStar, significantly outperforming the supervised and text-based RL finetuning baselines. Notably, Our ReVPT-3B and ReVPT-7B outperform the instruct models by 9.03% and 9.44% on CV-Bench. Finally, we bring to the community new insights on RL-based visual tool-usage through extensive ablations. Our code is available at https://github.com/ls-kelvin/REVPT.
- Abstract(参考訳): 人間の知性の基盤である視覚推論は、多様な視覚的問題を解決するのに不可欠な複雑な知覚的および論理的プロセスを含んでいる。
コンピュータビジョンの進歩は、様々な知覚的タスクのための強力なモデルを生み出してきたが、これらを一般的な視覚的推論に活用することは依然として困難である。
以前の研究では、教師付き微調整による視覚モデルによるLLMの拡張はパフォーマンスを向上させるが、高価なデータ生成、注意深いデータフィルタリングへの依存、一般化の欠如といった重要な制限に直面している。
これらの課題に対処するために,強化学習による視覚ツールの推論と活用を行うマルチモーダルLLMの能力を高めるためのReVPTを提案する。
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
実験の結果,SAT,CV-Bench,BLINK,MMStarなどの高感度なベンチマークにおいて,教師付きおよびテキストベースのRLファインタニングベースラインを著しく上回っていることがわかった。
特に、当社のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
最後に、広範囲にわたる改善を通じて、RLベースのビジュアルツール使用に関する新たな洞察をコミュニティに提供する。
私たちのコードはhttps://github.com/ls-kelvin/REVPT.comで利用可能です。
関連論文リスト
- OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。