論文の概要: ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
- arxiv url: http://arxiv.org/abs/2510.27363v1
- Date: Fri, 31 Oct 2025 10:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.076097
- Title: ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
- Title(参考訳): ToolScope: 視覚ガイドと長距離ツール用エージェントフレームワーク
- Authors: Mengjie Deng, Guanting Dong, Zhicheng Dou,
- Abstract要約: ToolScopeは、グローバルな計画とローカルなマルチモーダル認識を統合するために設計されたエージェントフレームワークである。
我々は、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む4つのVQAベンチマークでToolScopeを評価する。
- 参考スコア(独自算出の注目度): 64.20714385692634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, large language models (LLMs) have demonstrated remarkable problem-solving capabilities by autonomously integrating with external tools for collaborative reasoning. However, due to the inherently complex and diverse nature of multimodal information, enabling multimodal large language models (MLLMs) to flexibly and efficiently utilize external tools during reasoning remains an underexplored challenge. In this work, we introduce ToolScope, an agentic framework designed to unify global planning with local multimodal perception, adopting a specialized Perceive tool to mitigates visual context degradation in long-horizon VQA task. ToolScope comprises three primary components: the Global Navigator, the Agentic Executor, and the Response Synthesizer. The Global Navigator functions as a "telescope", offering high-level strategic guidance. The Agentic Executor operates iteratively to augment MLLM with local perception through the integration of external tools-Search, Code, and Perceive. Finally, the Response Synthesizer consolidates and organizes the reasoning process into a coherent, user-friendly output. We evaluate ToolScope on four VQA benchmarks across diverse domains, including VQA 2.0, ScienceQA, MAT-Search and MathVista. It demonstrates strong generalization capabilities, achieving an average performance improvement of up to +6.69% across all datasets.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,協調推論のための外部ツールと自律的に統合することで,目覚ましい問題解決能力を示している。
しかし、本質的に複雑な多モーダル情報の性質のため、多モーダル大規模言語モデル(MLLM)は、推論中に外部ツールを柔軟かつ効率的に活用することが可能であり、未解決の課題である。
本稿では,グローバルな計画と局所的なマルチモーダル認識を一体化するためのエージェントフレームワークであるToolScopeを紹介し,長期VQAタスクにおける視覚的コンテキスト劣化を緩和するための特別なPerceiveツールを採用する。
ToolScopeには,Global Navigator, Agentic Executor, Response Synthesizerの3つの主要コンポーネントが含まれている。
グローバルナビゲータは「テレスコープ」として機能し、高いレベルの戦略的ガイダンスを提供する。
Agentic Executorは、外部ツール検索、コード、知覚の統合を通じて、MLLMを局所的な知覚で拡張するために反復的に動作する。
最後に、Response Synthesizerは、推論プロセスを統一して、一貫性のあるユーザフレンドリな出力に整理する。
我々は、VQA 2.0、ScienceQA、MAT-Search、MathVistaを含む4つのVQAベンチマークでToolScopeを評価する。
強力な一般化能力を示し、すべてのデータセットで平均的なパフォーマンス改善を+6.69%達成している。
関連論文リスト
- ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.788417605537965]
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文 参考訳(メタデータ) (2025-08-05T10:06:16Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。