論文の概要: Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging
- arxiv url: http://arxiv.org/abs/2601.08192v1
- Date: Tue, 13 Jan 2026 03:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.051969
- Title: Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging
- Title(参考訳): ルート・検索・リフレクション・修復:医用画像における視覚検出・言語推論のための自己改善型エージェント・フレームワーク
- Authors: Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman,
- Abstract要約: 医用イメージングを4つの協調エージェントに分解するエージェントフレームワークであるR4を提案する。
R4 は LLM-as-a-Judge のスコアを約 +1.7-2.5 で、mAP50 は 2.5-+3.5 の絶対点を強い単VLM ベースライン上で連続的に引き上げる。
- 参考スコア(独自算出の注目度): 3.6136448489318695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image analysis increasingly relies on large vision-language models (VLMs), yet most systems remain single-pass black boxes that offer limited control over reasoning, safety, and spatial grounding. We propose R^4, an agentic framework that decomposes medical imaging workflows into four coordinated agents: a Router that configures task- and specialization-aware prompts from the image, patient history, and metadata; a Retriever that uses exemplar memory and pass@k sampling to jointly generate free-text reports and bounding boxes; a Reflector that critiques each draft-box pair for key clinical error modes (negation, laterality, unsupported claims, contradictions, missing findings, and localization errors); and a Repairer that iteratively revises both narrative and spatial outputs under targeted constraints while curating high-quality exemplars for future cases. Instantiated on chest X-ray analysis with multiple modern VLM backbones and evaluated on report generation and weakly supervised detection, R^4 consistently boosts LLM-as-a-Judge scores by roughly +1.7-+2.5 points and mAP50 by +2.5-+3.5 absolute points over strong single-VLM baselines, without any gradient-based fine-tuning. These results show that agentic routing, reflection, and repair can turn strong but brittle VLMs into more reliable and better grounded tools for clinical image interpretation. Our code can be found at: https://github.com/faiyazabdullah/MultimodalMedAgent
- Abstract(参考訳): 医用画像解析は大規模視覚言語モデル(VLM)にますます依存しているが、ほとんどのシステムは推論、安全性、空間的接地を限定的に制御できる単一パスブラックボックスのままである。
医用画像ワークフローを,画像,患者履歴,メタデータからタスク認識と特殊化対応のプロンプトを設定するルータ,メモリとパス@kサンプリングを併用してフリーテキストレポートとバウンディングボックスを共同生成するリトリバー,主要な臨床エラーモード(ネゲーション,ラテラル,クレーム,矛盾,発見の欠落,ローカライゼーションエラー)に対する各ドラフトボックスペアを批判するリフレクタ,および将来の症例において,目標とする制約下でのストーリーと空間のアウトプットを反復的に修正するリフレクタの4つに分解するリフレクタを提案する。
胸部X線分析を複数の現代のVLMバックボーンで検証し、レポート生成と弱い教師付き検出で評価し、R^4はLLM-as-a-Judgeスコアをほぼ+1.7-+2.5点、mAP50は2.5-+3.5絶対点で、勾配に基づく微調整は行わない。
これらの結果から, エージェント的ルーティング, リフレクション, 修復は, 強いが脆いVLMを, より信頼性が高く, 基礎的なツールに転換し, 臨床画像の解釈に役立てることが示唆された。
私たちのコードは、https://github.com/faiyazabdullah/MultimodalMedAgent.comで見つけることができます。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities [89.81463562506637]
医用画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを紹介する。
対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
論文 参考訳(メタデータ) (2025-11-25T18:59:53Z) - Seeing the Unseen: Towards Zero-Shot Inspection for Wind Turbine Blades using Knowledge-Augmented Vision Language Models [10.230967860299504]
本稿では,ゼロショット指向の検査フレームワークを提案し,視覚言語モデルとRetrieval-Augmented Generationを統合した。
技術ドキュメント、代表参照画像、ドメイン固有のガイドラインを含むマルチモーダル知識ベースを構築する。
各種損傷カテゴリをカバーする30のラベル付きブレード画像上での枠組みの評価を行った。
論文 参考訳(メタデータ) (2025-10-26T23:19:28Z) - Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays [8.019362739504087]
視覚言語による事前訓練は画像とテキストのアライメントが進んでいるが、臨床報告の不均一性によって放射線学の進歩が制限されている。
我々は,大規模言語モデル (LLM) エンコーダが,多様なスタイルにまたがる堅牢な臨床表現を提供できるかどうかを問う。
胸部X線レポート用のドメイン適応エンコーダLLM2VEC4CXRと、このエンコーダとビジョンバックボーンを結合するデュアルトウワーフレームワークLLM2CLIP4CXRを紹介する。
論文 参考訳(メタデータ) (2025-09-17T09:44:59Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - $μ^2$Tokenizer: Differentiable Multi-Scale Multi-Modal Tokenizer for Radiology Report Generation [9.947108972979155]
我々は,放射線学レポート生成タスクのための大規模言語モデルとして,$mu2$LLM, a $underlinetextbfmu$ltiscale $underlinetextbfmu$ltimodalを提案する。
中間層である$mu2$Tokenizerは、マルチスケールのビジュアルトークンライザとテキストトークンライザのマルチモーダル機能を統合したものである。
そこで我々は,5段階のLCM駆動パイプラインを導入し,定期的なCTレポートを3重対の視覚質問応答と引用リンク推論の物語に変換する。
論文 参考訳(メタデータ) (2025-06-30T23:14:49Z) - Point, Detect, Count: Multi-Task Medical Image Understanding with Instruction-Tuned Vision-Language Models [3.3091869879941687]
マルチタスク医療画像理解のための微調整視覚言語モデル(VLM)について検討する。
我々は各タスクを視覚言語推論に適した命令ベースのプロンプトに再構成する。
その結果,マルチタスクトレーニングにより堅牢性と精度が向上した。
論文 参考訳(メタデータ) (2025-05-22T13:18:44Z) - Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models [5.545334160894197]
VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。
しかしながら、幻覚(幻覚)-視覚内容と矛盾する記述を生成する傾向-は、VLMにおいて重要な問題である。
VLMによる消化管画像解析と幻覚の研究を容易にするため,マルチモーダル画像テキストGIデータセットをキュレートする。
このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2画像の詳細な医療報告はChatGPTを使用して生成される。
論文 参考訳(メタデータ) (2025-05-11T14:54:11Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。