論文の概要: Med-VRAgent: A Framework for Medical Visual Reasoning-Enhanced Agents
- arxiv url: http://arxiv.org/abs/2510.18424v1
- Date: Tue, 21 Oct 2025 08:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.162903
- Title: Med-VRAgent: A Framework for Medical Visual Reasoning-Enhanced Agents
- Title(参考訳): Med-VRAgent: 医用ビジュアル推論強化エージェントのためのフレームワーク
- Authors: Guangfu Guo, Xiaoqian Lu, Yue Feng,
- Abstract要約: 医療用ビジュアル推論エージェント(textbfMed-VRAgent)というフレームワークを提案する。
アプローチは視覚誘導と自己回帰のパラダイムとモンテカルロ木探索(MCTS)に基づいている。
- 参考スコア(独自算出の注目度): 5.108895932957414
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Language Models (VLMs) achieve promising results in medical reasoning but struggle with hallucinations, vague descriptions, inconsistent logic and poor localization. To address this, we propose a agent framework named Medical Visual Reasoning Agent (\textbf{Med-VRAgent}). The approach is based on Visual Guidance and Self-Reward paradigms and Monte Carlo Tree Search (MCTS). By combining the Visual Guidance with tree search, Med-VRAgent improves the medical visual reasoning capabilities of VLMs. We use the trajectories collected by Med-VRAgent as feedback to further improve the performance by fine-tuning the VLMs with the proximal policy optimization (PPO) objective. Experiments on multiple medical VQA benchmarks demonstrate that our method outperforms existing approaches.
- Abstract(参考訳): 視覚言語モデル(VLM)は医学的推論において有望な結果をもたらすが、幻覚、曖昧な記述、一貫性のない論理、ローカライゼーションに苦慮する。
そこで我々は,メディカルビジュアル推論エージェント (\textbf{Med-VRAgent}) というエージェントフレームワークを提案する。
このアプローチは、Visual GuidanceとSelf-RewardのパラダイムとMonte Carlo Tree Search(MCTS)に基づいています。
ビジュアルガイダンスとツリー検索を組み合わせることで、Med-VRAgentはVLMの医学的視覚的推論能力を改善する。
我々は、Med-VRAgentが収集した軌跡をフィードバックとして、VLMをPPOの目的で微調整することで、さらなる性能向上を図っている。
複数の医療用VQAベンチマーク実験により,本手法が既存手法より優れていることが示された。
関連論文リスト
- Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making [18.640622974004724]
多様な視覚言語モデル(VLM)の盲目の組み合わせは、誤った結果の解釈を増幅することができる。
医療マルチモーダル意思決定のためのメディエータ誘導型マルチエージェント協調フレームワークであるMedOrchを提案する。
我々は、異なるVLMエージェント内の協調が、個々のエージェントの能力を超えることができることを示す。
論文 参考訳(メタデータ) (2025-08-08T04:02:10Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [26.167030665482184]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。
我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文 参考訳(メタデータ) (2025-03-28T17:59:53Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - MedAide: Information Fusion and Anatomy of Medical Intents via LLM-based Agent Collaboration [19.951977369610983]
MedAideは、意図認識情報融合と協調推論を可能にするために設計された医療用マルチエージェントコラボレーションフレームワークである。
我々は,構文制約と検索拡張生成を組み合わせた正規化誘導モジュールを導入し,複雑なクエリを分解する。
また,エージェントの意図の適応認識と更新を実現するために,動的意図のプロトタイプマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:10:27Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。