論文の概要: VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
- arxiv url: http://arxiv.org/abs/2505.20289v1
- Date: Mon, 26 May 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.453116
- Title: VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection
- Title(参考訳): VisualToolAgent (VisTA):ビジュアルツール選択のための強化学習フレームワーク
- Authors: Zeyi Huang, Yuyang Ji, Anirudh Sundara Rajan, Zefan Cai, Wen Xiao, Junjie Hu, Yong Jae Lee,
- Abstract要約: VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
- 参考スコア(独自算出の注目度): 39.853940586221924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VisTA, a new reinforcement learning framework that empowers visual agents to dynamically explore, select, and combine tools from a diverse library based on empirical performance. Existing methods for tool-augmented reasoning either rely on training-free prompting or large-scale fine-tuning; both lack active tool exploration and typically assume limited tool diversity, and fine-tuning methods additionally demand extensive human supervision. In contrast, VisTA leverages end-to-end reinforcement learning to iteratively refine sophisticated, query-specific tool selection strategies, using task outcomes as feedback signals. Through Group Relative Policy Optimization (GRPO), our framework enables an agent to autonomously discover effective tool-selection pathways without requiring explicit reasoning supervision. Experiments on the ChartQA, Geometry3K, and BlindTest benchmarks demonstrate that VisTA achieves substantial performance gains over training-free baselines, especially on out-of-distribution examples. These results highlight VisTA's ability to enhance generalization, adaptively utilize diverse tools, and pave the way for flexible, experience-driven visual reasoning systems.
- Abstract(参考訳): 視覚エージェントを動的に探索し、選択し、組み合わせることを可能にする新しい強化学習フレームワークであるVisTAを紹介した。
既存のツール強化推論手法は、トレーニングフリーのプロンプトや大規模な微調整に依存しており、アクティブなツール探索が欠如しており、ツールの多様性が制限されている。
対照的に、VisTAはエンドツーエンドの強化学習を利用して、タスク成果をフィードバック信号として使用しながら、反復的に洗練されたクエリ固有のツール選択戦略を洗練します。
グループ相対政策最適化(GRPO)により、エージェントは明確な推論監督を必要とせず、効果的ツール選択経路を自律的に発見できる。
ChartQA、Geometry3K、BlindTestのベンチマークでの実験では、VisTAはトレーニングなしのベースライン、特にアウト・オブ・ディストリビューションの例において、大幅なパフォーマンス向上を達成した。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
関連論文リスト
- OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。