論文の概要: Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning
- arxiv url: http://arxiv.org/abs/2602.21517v1
- Date: Wed, 25 Feb 2026 03:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.682495
- Title: Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning
- Title(参考訳): どのツールを信頼すべきか? マルチモーダルエージェント学習を用いたツール専門家対応胸部X線エージェント
- Authors: Zheang Huai, Honglong Yang, Xiaomeng Li,
- Abstract要約: 本稿では,エージェントがツールと対話し,実践的信頼性を実証的に学習することを可能にする枠組みを提案する。
具体的インスタンス化として,胸部X線分析に焦点をあて,ツールに精通した胸部X線剤を提案する。
ツール出力が不一致になると、エージェントは実験的にマルチモーダルツールの結果を受け入れたり拒否したりし、報酬を受け取り、クエリタイプごとにどのツールを信頼するかを学ぶ。
- 参考スコア(独自算出の注目度): 11.117796080402044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents with tool-use capabilities show promise for integrating the domain expertise of various tools. In the medical field, however, tools are usually AI models that are inherently error-prone and can produce contradictory responses. Existing research on medical agents lacks sufficient understanding of the tools' realistic reliability and thus cannot effectively resolve tool conflicts. To address this gap, this paper introduces a framework that enables an agent to interact with tools and empirically learn their practical trustworthiness across different types of multimodal queries via agentic learning. As a concrete instantiation, we focus on chest X-ray analysis and present a tool-expertise-aware chest X-ray agent (TEA-CXA). When tool outputs disagree, the agent experimentally accepts or rejects multimodal tool results, receives rewards, and learns which tool to trust for each query type. Importantly, TEA-CXA extends existing codebases for reinforcement learning with multi-turn tool-calling that focus on textual inputs, to support multimodal contexts effectively. In addition, we enhance the codebase for medical use scenarios by supporting multiple tool calls in one turn, parallel tool inference, and multi-image accommodation within a single user query. Our code framework is applicable to general medical research on multi-turn tool-calling reinforcement learning in multimodal settings. Experiments show that TEA-CXA outperforms the state-of-the-art methods and a comprehensive set of baselines. Code will be released.
- Abstract(参考訳): ツール使用機能を備えたAIエージェントは、さまざまなツールのドメイン専門知識を統合することを約束している。
しかし、医療分野では、ツールは通常AIモデルであり、本質的にエラーを起こし、矛盾する応答を生じさせる。
既存の医療エージェントの研究は、ツールの現実的な信頼性を十分に理解していないため、ツールの衝突を効果的に解決することができない。
このギャップに対処するために,エージェントがツールと対話し,エージェント学習を通じて様々なタイプのマルチモーダルクエリに対して実践的信頼性を経験的に学習することを可能にするフレームワークを提案する。
具体的インスタンス化として,胸部X線分析に焦点をあて,ツールに熟練した胸部X線剤(TEA-CXA)を提示する。
ツール出力が不一致になると、エージェントは実験的にマルチモーダルツールの結果を受け入れたり拒否したりし、報酬を受け取り、クエリタイプごとにどのツールを信頼するかを学ぶ。
重要な点として、TEA-CXAは、テキスト入力に焦点を当てたマルチターンツールコールによる強化学習のための既存のコードベースを拡張し、マルチモーダルコンテキストを効果的にサポートする。
さらに,複数のツールコールを1ターンでサポートし,並列ツール推論,単一ユーザクエリ内でのマルチイメージの宿泊をサポートすることで,医療利用シナリオのコードベースを強化する。
コードフレームワークは,マルチモーダル環境下でのマルチターンツールコール強化学習に関する一般的な医学研究に適用できる。
実験の結果,TAA-CXAは最先端の手法と総合的なベースラインよりも優れていた。
コードはリリースされる。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。
MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。
車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文 参考訳(メタデータ) (2025-12-29T12:16:12Z) - DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning [84.25936790759484]
DARTは、複数の議論する視覚エージェント間の不一致を利用して、有用な視覚ツールを識別するマルチエージェントフレームワークである。
これらのツールは、新しい情報を導入することで実りの多いマルチエージェントの議論を可能にする。
Dartは、M3D医療データセットを1.3%改善して、応用ドメインの新しいツールに順応する。
論文 参考訳(メタデータ) (2025-12-08T03:33:38Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature [11.804526152911386]
本研究では,大規模言語モデル(LLM)に基づくエージェントの評価ベンチマークであるPaperArenaを提案する。
研究上の疑問から、エージェントは推論や適切なツールとのインタラクションを通じて、複数の論文にまたがる多様なフォーマットを統合する必要がある。
実験の結果、高度に確立されたエージェントを駆動する最も先進的なLCMでさえ、平均精度は38.78%に過ぎなかった。
論文 参考訳(メタデータ) (2025-10-13T02:10:39Z) - Reducing Cognitive Overhead in Tool Use via Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。
MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。
コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-12T12:10:53Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。