Fugu-MT 論文翻訳(概要): PyVision: Agentic Vision with Dynamic Tooling

論文の概要: PyVision: Agentic Vision with Dynamic Tooling

arxiv url: http://arxiv.org/abs/2507.07998v1
Date: Thu, 10 Jul 2025 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.544075
Title: PyVision: Agentic Vision with Dynamic Tooling
Title（参考訳）: PyVision:動的ツールによるエージェントビジョン
Authors: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei,
Abstract要約: PyVisionはインタラクティブなマルチターンフレームワークで、MLLMが手元にあるタスクに適したPythonベースのツールを自律的に生成、実行、洗練することができる。我々は、PyVisionによって作成されたツールの分類を開発し、その使用状況を様々なベンチマークで分析する。
参考スコア（独自算出の注目度）: 10.85977975330291
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs are increasingly deployed as agents, systems capable of planning, reasoning, and dynamically calling external tools. However, in visual reasoning, prior approaches largely remain limited by predefined workflows and static toolsets. In this report, we present PyVision, an interactive, multi-turn framework that enables MLLMs to autonomously generate, execute, and refine Python-based tools tailored to the task at hand, unlocking flexible and interpretable problem-solving. We develop a taxonomy of the tools created by PyVision and analyze their usage across a diverse set of benchmarks. Quantitatively, PyVision achieves consistent performance gains, boosting GPT-4.1 by +7.8% on V* and Claude-4.0-Sonnet by +31.1% on VLMsAreBlind-mini. These results point to a broader shift: dynamic tooling allows models not just to use tools, but to invent them, advancing toward more agentic visual reasoning.
Abstract（参考訳）: LLMはますますエージェントとしてデプロイされ、計画、推論、動的に外部ツールを呼び出すことができる。しかし、視覚的推論では、事前定義されたワークフローや静的なツールセットによって、以前のアプローチはほとんど変わっていない。本稿では,MLLMが手作業に適したPythonベースのツールを自動生成,実行,洗練し,柔軟かつ解釈可能な問題解決を可能にする,インタラクティブなマルチターンフレームワークであるPyVisionを紹介する。我々は、PyVisionによって作成されたツールの分類を開発し、その使用法を様々なベンチマークで分析する。定量的には、PyVisionは連続的なパフォーマンス向上を実現し、GPT-4.1はV*で+7.8%、Claude-4.0-Sonnetは+31.1%、VLMsAreBlind-miniで+31.1%向上した。動的ツーリングは、ツールを使用するだけでなく、それらを発明し、よりエージェント的な視覚的推論へと進むことができる。

関連論文リスト

VizGenie: Toward Self-Refining, Domain-Aware Workflows for Next-Generation Scientific Visualization [12.826592849136215]
VizGenieは,大規模言語モデル(LLM)による科学的可視化を促進するフレームワーク VizGenieの特徴は直感的な自然言語インタフェースで、ユーザーは高レベルの機能ベースのクエリを発行できる。
論文参考訳（メタデータ） (2025-07-18T23:54:22Z)
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文参考訳（メタデータ） (2025-05-26T17:59:17Z)
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。 V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文参考訳（メタデータ） (2025-05-13T14:35:51Z)
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文参考訳（メタデータ） (2025-05-12T12:48:30Z)
FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.80355496575281]
FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール学習により、大きな言語モデル(LLM)が外部ツールやAPIと対話できるようになる。既存の研究は主に静的環境に焦点を当てており、この問題を見落としている。ツール変数に対するLLMの適応性と反射性を向上する新しいフレームワークであるToolEVOを提案する。
論文参考訳（メタデータ） (2024-10-09T07:14:45Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
ART: Automatic multi-step reasoning and tool-use for large language models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文参考訳（メタデータ） (2023-03-16T01:04:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。