論文の概要: Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints
- arxiv url: http://arxiv.org/abs/2506.14821v1
- Date: Tue, 10 Jun 2025 20:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.398553
- Title: Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints
- Title(参考訳): VLMのリソース制約下での詳細なビジュアル推論ツールへの強化
- Authors: Sunil Kumar, Bowen Zhao, Leo Dirac, Paulina Varshavskaya,
- Abstract要約: 我々は、視覚言語モデル(VLM)のためのDeepseek-r1のような手法からインスピレーションを得て、グループ相対ポリシー最適化(GRPO)を用いて小規模モデルを訓練し、ズームのような外部ツールを使用する。
最大のメリットは、GRPO学習、単純な報酬構造、シンプルなツール呼び出しインターフェース、そして視覚的に難しい例を過剰に表現するトレーニングデータミックスを組み合わせることで得られる。
同様に大規模なベースラインモデルと比較して,外部ツールから収集した詳細な視覚情報により,視覚的質問応答(VQA)タスクの性能が向上する。
- 参考スコア(独自算出の注目度): 8.411630512737887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite tremendous recent advances in large model reasoning ability, vision-language models (VLMs) still struggle with detailed visual reasoning, especially when compute resources are limited. To address this challenge, we draw inspiration from methods like Deepseek-r1 for VLMs and train smaller-scale models with Group Relative Policy Optimization (GRPO) to use external tools such as zoom. The greatest benefit is obtained with a combination of GRPO learning, a simple reward structure, a simplified tool-calling interface, allocating additional tokens to the result of the tool call, and a training data mix that over-represents visually difficult examples. Compared to similarly-sized baseline models, our method achieves better performance on some visual question-answering (VQA) tasks, thanks to the detailed visual information gathered from the external tool.
- Abstract(参考訳): 大規模なモデル推論能力の飛躍的な進歩にもかかわらず、視覚言語モデル(VLM)は、特に計算資源が限られている場合、詳細なビジュアル推論に苦戦している。
この課題に対処するため、VLM用のDeepseek-r1のような手法からインスピレーションを得て、グループ相対ポリシー最適化(GRPO)を用いて小規模モデルをトレーニングし、ズームのような外部ツールを使用するようにしました。
最大のメリットは、GRPO学習、単純な報酬構造、シンプルなツールコールインターフェース、ツールコールの結果に追加トークンを割り当てること、視覚的に困難な例を過度に表現するトレーニングデータを組み合わせることで得られる。
同様に大規模なベースラインモデルと比較して,外部ツールから収集した詳細な視覚情報により,視覚的質問応答(VQA)タスクの性能が向上する。
関連論文リスト
- VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning [45.39372905700317]
視覚的に豊かな情報にまたがる複雑な推論に適した新しいRLフレームワークであるVRAG-RLを紹介する。
このフレームワークにより、VLMは検索エンジンと相互作用し、シングルターンまたはマルチターン推論軌道を自律的にサンプリングする。
我々のアプローチは、RAGドメインにおけるRLの重要な制限を強調します。
論文 参考訳(メタデータ) (2025-05-28T06:30:51Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - VQA Training Sets are Self-play Environments for Generating Few-shot Pools [2.556825820539693]
本稿では,タスクメトリクスを報酬として計算環境を構築するために,既存のトレーニングセットを直接利用できる手法を提案する。
提案手法は、ゼロショットプロンプトから始まり、トレーニングセット上のタスクメトリックを最大化する少数ショット例を選択することにより、反復的にそれらを洗練する。
我々の実験では、GeminiがScreenAIのようなより小型で特殊なモデルを使って、トレーニングセットのパフォーマンスを反復的に改善する方法を実証している。
論文 参考訳(メタデータ) (2024-05-30T07:38:58Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。