論文の概要: ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools
- arxiv url: http://arxiv.org/abs/2508.03284v1
- Date: Tue, 05 Aug 2025 10:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.905225
- Title: ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools
- Title(参考訳): ToolVQA: 外部ツールを用いたマルチステップ推論VQA用データセット
- Authors: Shaofeng Yin, Ting Lei, Yang Liu,
- Abstract要約: 本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
- 参考スコア(独自算出の注目度): 9.788417605537965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating external tools into Large Foundation Models (LFMs) has emerged as a promising approach to enhance their problem-solving capabilities. While existing studies have demonstrated strong performance in tool-augmented Visual Question Answering (VQA), recent benchmarks reveal significant gaps in real-world tool-use proficiency, particularly in functionally diverse multimodal settings requiring multi-step reasoning. In this work, we introduce ToolVQA, a large-scale multimodal dataset comprising 23K instances, designed to bridge this gap. Unlike previous datasets that rely on synthetic scenarios and simplified queries, ToolVQA features real-world visual contexts and challenging implicit multi-step reasoning tasks, better aligning with real user interactions. To construct this dataset, we propose ToolEngine, a novel data generation pipeline that employs Depth-First Search (DFS) with a dynamic in-context example matching mechanism to simulate human-like tool-use reasoning. ToolVQA encompasses 10 multimodal tools across 7 diverse task domains, with an average inference length of 2.78 reasoning steps per instance. The fine-tuned 7B LFMs on ToolVQA not only achieve impressive performance on our test set but also surpass the large close-sourced model GPT-3.5-turbo on various out-of-distribution (OOD) datasets, demonstrating strong generalizability to real-world tool-use scenarios.
- Abstract(参考訳): 外部ツールをLFM(Large Foundation Models)に統合することは、その問題解決能力を高めるための有望なアプローチとして現れました。
既存の研究では、ツール強化ビジュアル質問回答(VQA)において高いパフォーマンスを示しているが、最近のベンチマークでは、実世界のツール使用の習熟度、特に多段階推論を必要とする機能的に多様なマルチモーダル設定において、大きなギャップが示されている。
本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
合成シナリオと単純化されたクエリに依存する以前のデータセットとは異なり、ToolVQAは現実世界の視覚的コンテキストと暗黙的な多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上している。
このデータセットを構築するために,Depth-First Search(DFS)を用いた新しいデータ生成パイプラインであるToolEngineを提案する。
ToolVQAは7つのタスクドメインにまたがる10のマルチモーダルツールを含んでいる。
ToolVQAの微調整された7B LFMは、我々のテストセットで印象的なパフォーマンスを達成するだけでなく、様々なアウト・オブ・ディストリビューション(OOD)データセット上の大規模なオープンソースモデルであるGPT-3.5-turboを越え、現実世界のツール使用シナリオに強力な一般化性を示す。
関連論文リスト
- What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions [9.825432101000358]
ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。
各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。
現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
論文 参考訳(メタデータ) (2025-05-29T17:10:12Z) - Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models [47.145844910856134]
ツール学習は、多種多様なツールで大きな言語モデルを強化し、実践的なタスクを解決するエージェントとして機能することを目的としている。
ツール利用LLMのコンテキスト長が限られているため、大きなツールセットから有用なツールを選択するために情報検索(IR)モデルを採用することが重要な初期ステップである。
ほとんどのツール使用ベンチマークは、実際のシナリオとは程遠いタスクごとに、小さなツールセットを手動で注釈付けすることで、このステップを単純化している。
多様な検索タスク7.6kと43kツールのコーパスからなる異種ツール検索ベンチマークであるToolRetを提案する。
論文 参考訳(メタデータ) (2025-03-03T17:37:16Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。