Fugu-MT 論文翻訳(概要): Visual Reasoning through Tool-supervised Reinforcement Learning

論文の概要: Visual Reasoning through Tool-supervised Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.19945v1
Date: Tue, 21 Apr 2026 19:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.768034
Title: Visual Reasoning through Tool-supervised Reinforcement Learning
Title（参考訳）: ツールによる強化学習による視覚的推論
Authors: Qihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang, Davide Modolo,
Abstract要約: 本稿では,より効果的なツール・ユース・ラーニングのためのツール・インシュアランス(ToolsRL)フレームワークを提案する。ズームイン、ローテーション、フリップ、ドローポイント/ラインなど、シンプルな、ネイティブで、解釈可能な一連のビジュアルツールに重点を置いています。強化学習カリキュラムが開発され、第1段階は、モチベーションの高いツール固有の報酬セットによってのみ最適化され、第2段階は、通話ツールを許可しながら、精度の高い目標報酬で訓練される。
参考スコア（独自算出の注目度）: 18.76805336754779
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.
Abstract（参考訳）: 本稿では,多モーダル大規模言語モデルにおける複雑な視覚的推論タスクを効果的に習得する方法の問題点について検討する。そこで本研究では,より効果的なツール・ユース・ラーニングのためのツール・インシュアランス(ToolsRL)フレームワークを提案する。私たちは、ズームイン、ローテーション、フリップ、ドローポイント/ラインなど、一連のシンプルでネイティブで解釈可能なビジュアルツールに焦点を当てています。強化学習カリキュラムが開発され、第1段階は、モチベーションの高いツール固有の報酬セットによってのみ最適化され、第2段階は、通話ツールを許可しながら、精度の高い目標報酬で訓練される。このように、ツール呼び出し機能は、視覚的推論タスクを完了するためにツールを使用する前にマスターされ、それらの異種タスク間の潜在的な最適化の衝突を避ける。ツール教師ありカリキュラムの訓練は効率的であり,ToolsRLは複雑な視覚的推論タスクに対して強力なツール利用能力を得ることができることを示した。

関連論文リスト

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。 AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文参考訳（メタデータ） (2026-01-26T16:04:43Z)
Teaching LLMs to Learn Tool Trialing and Execution through Environment Interaction [31.689383152872534]
ToolMasterは、ツールの使用を黄金のツール呼び出しトラジェクトリの模倣から、環境とのインタラクションを通じてツールの使用を積極的に学習するフレームワークである。ツール計画と実行のためにLLMを最適化するために、ToolMasterはトライアルと実行のパラダイムを採用している。実験の結果、ツールマスターは、見知らぬツールや馴染みのないツールをまたいだ一般化や堅牢性という点で、既存のベースラインを著しく上回ります。
論文参考訳（メタデータ） (2026-01-19T06:46:33Z)
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文参考訳（メタデータ） (2025-05-26T17:59:17Z)
Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文参考訳（メタデータ） (2023-05-22T14:37:05Z)
Tool Learning with Foundation Models [158.8640687353623]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文参考訳（メタデータ） (2023-04-17T15:16:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。