論文の概要: PyVision: Agentic Vision with Dynamic Tooling
- arxiv url: http://arxiv.org/abs/2507.07998v1
- Date: Thu, 10 Jul 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.544075
- Title: PyVision: Agentic Vision with Dynamic Tooling
- Title(参考訳): PyVision:動的ツールによるエージェントビジョン
- Authors: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei,
- Abstract要約: PyVisionはインタラクティブなマルチターンフレームワークで、MLLMが手元にあるタスクに適したPythonベースのツールを自律的に生成、実行、洗練することができる。
我々は、PyVisionによって作成されたツールの分類を開発し、その使用状況を様々なベンチマークで分析する。
- 参考スコア(独自算出の注目度): 10.85977975330291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly deployed as agents, systems capable of planning, reasoning, and dynamically calling external tools. However, in visual reasoning, prior approaches largely remain limited by predefined workflows and static toolsets. In this report, we present PyVision, an interactive, multi-turn framework that enables MLLMs to autonomously generate, execute, and refine Python-based tools tailored to the task at hand, unlocking flexible and interpretable problem-solving. We develop a taxonomy of the tools created by PyVision and analyze their usage across a diverse set of benchmarks. Quantitatively, PyVision achieves consistent performance gains, boosting GPT-4.1 by +7.8% on V* and Claude-4.0-Sonnet by +31.1% on VLMsAreBlind-mini. These results point to a broader shift: dynamic tooling allows models not just to use tools, but to invent them, advancing toward more agentic visual reasoning.
- Abstract(参考訳): LLMはますますエージェントとしてデプロイされ、計画、推論、動的に外部ツールを呼び出すことができる。
しかし、視覚的推論では、事前定義されたワークフローや静的なツールセットによって、以前のアプローチはほとんど変わっていない。
本稿では,MLLMが手作業に適したPythonベースのツールを自動生成,実行,洗練し,柔軟かつ解釈可能な問題解決を可能にする,インタラクティブなマルチターンフレームワークであるPyVisionを紹介する。
我々は、PyVisionによって作成されたツールの分類を開発し、その使用法を様々なベンチマークで分析する。
定量的には、PyVisionは連続的なパフォーマンス向上を実現し、GPT-4.1はV*で+7.8%、Claude-4.0-Sonnetは+31.1%、VLMsAreBlind-miniで+31.1%向上した。
動的ツーリングは、ツールを使用するだけでなく、それらを発明し、よりエージェント的な視覚的推論へと進むことができる。
関連論文リスト
- OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。
まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。
次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文 参考訳(メタデータ) (2025-05-12T12:48:30Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。
既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。
ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文 参考訳(メタデータ) (2024-10-09T07:14:45Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。