論文の概要: OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.08617v1
- Date: Tue, 13 May 2025 14:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.617874
- Title: OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
- Title(参考訳): OpenThinkIMG:ビジュアルツール強化学習によるイメージ思考の学習
- Authors: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng,
- Abstract要約: OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
- 参考スコア(独自算出の注目度): 57.89304342666846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".
- Abstract(参考訳): 人間は複雑な問題解決のためにインタラクティブな視覚認知を柔軟に活用できるが、LVLM(Large Vision-Language Models)が視覚ツールでも同様に適応的な行動を学ぶことは依然として困難である。
さまざまなツールの統合を妨げ、リッチなインタラクションデータを生成し、堅牢なエージェントを効果的にトレーニングする。
これらのギャップに対処するため、ツール拡張LVLMのためのオープンソースで総合的なエンドツーエンドフレームワークOpenThinkIMGを紹介します。
標準化されたビジョンツールインターフェース、ポリシーの初期化のためのスケーラブルなトラジェクトリ生成、柔軟なトレーニング環境を備えている。
さらに、静的な実演における教師付き微調整(SFT)は、動的ツールの呼び出しに対して限定的なポリシーの一般化をもたらすことを考慮し、新しい強化学習(RL)フレームワークであるV-ToolRLを提案し、LVLMをトレーニングし、外部視覚ツールを呼び出すための適応的なポリシーを学ぶ。
V-ToolRLにより、LVLMは、ツールインタラクションからのフィードバックを使用してタスク成功を直接最適化することで、最適なツール利用戦略を自律的に発見できる。
V-ToolRLを挑戦的なチャート推論タスクで実証的に検証する。
我々のRL訓練エージェントはQwen2-VL-2Bをベースとしたもので、SFT初期化(+28.83点)を著しく上回り、TacoやCogComのような教師付きツール学習ベースラインを平均+12.7点上回っている。
特に、GPT-4.1のような有名なクローズドソースモデルを+8.68の精度で上回っている。
OpenThinkIMGは、ダイナミックでツール強化された視覚推論を進化させるための基盤となるフレームワークとして機能し、コミュニティが真の“イメージで考える”AIエージェントの開発を支援することを願っています。
関連論文リスト
- Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning [93.30252692375886]
ルールベースの強化学習は、大きな言語モデルにおけるツールコールを強化するために使用することができる。
ツールN1-7B/14Bはいくつかの主要なベンチマークでGPT-4oを上回った。
論文 参考訳(メタデータ) (2025-04-25T02:55:21Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。
FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。
実験により、最先端のLCMにおいて大きな性能差が示された。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [46.20445033086643]
大規模言語モデル(LLM)は、外部環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL [19.757030674041037]
身体的視覚追跡は、エンボディードエージェントにとって不可欠で挑戦的なスキルである。
既存の手法では、非効率なトレーニングや一般化の欠如に悩まされている。
視覚基盤モデルとオフライン強化学習を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T15:12:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。