論文の概要: A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.02841v1
- Date: Mon, 04 Aug 2025 19:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.65592
- Title: A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering
- Title(参考訳): 放射線画像質問応答における複合推論のためのマルチエージェントシステム
- Authors: Ziruo Yi, Jinyu Liu, Ting Xiao, Mark V. Albert,
- Abstract要約: 放射線画像質問応答(RVQA)は胸部X線画像に関する質問に対して正確な回答を提供する。
近年,マルチモーダル大言語モデル (MLLM) と検索拡張生成 (RAG) に基づく手法がRVQAの進歩に寄与している。
RVQAにおける複雑な推論を支援するために,マルチエージェントシステム(MAS)を導入する。
- 参考スコア(独自算出の注目度): 3.3809462259925938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology visual question answering (RVQA) provides precise answers to questions about chest X-ray images, alleviating radiologists' workload. While recent methods based on multimodal large language models (MLLMs) and retrieval-augmented generation (RAG) have shown promising progress in RVQA, they still face challenges in factual accuracy, hallucinations, and cross-modal misalignment. We introduce a multi-agent system (MAS) designed to support complex reasoning in RVQA, with specialized agents for context understanding, multimodal reasoning, and answer validation. We evaluate our system on a challenging RVQA set curated via model disagreement filtering, comprising consistently hard cases across multiple MLLMs. Extensive experiments demonstrate the superiority and effectiveness of our system over strong MLLM baselines, with a case study illustrating its reliability and interpretability. This work highlights the potential of multi-agent approaches to support explainable and trustworthy clinical AI applications that require complex reasoning.
- Abstract(参考訳): 放射線画像質問応答 (RVQA) は胸部X線画像に関する質問に対する正確な回答を提供し、放射線技師の作業負荷を軽減する。
近年,マルチモーダル大言語モデル (MLLM) と検索拡張世代 (RAG) に基づく手法は,RVQA の進歩が期待できるが,実際の正確性,幻覚,および相互モーダル不整合といった課題に直面している。
RVQAにおける複雑な推論を支援するために設計されたマルチエージェントシステム(MAS)を導入し、コンテキスト理解、マルチモーダル推論、回答検証のための特別なエージェントを提供する。
我々は,複数のMLLMに対して一貫したハードケースを含むモデル不一致フィルタリングによりキュレートされた挑戦的RVQA集合について評価を行った。
MLLMベースラインに対するシステムの優位性と有効性について, 信頼性と解釈可能性を示すケーススタディを用いて検討した。
この研究は、複雑な推論を必要とする説明可能で信頼できる臨床AIアプリケーションをサポートするマルチエージェントアプローチの可能性を強調している。
関連論文リスト
- DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model [26.704101714550827]
本稿では、ROIレベルとWSIレベルのタスクを同時に処理できる汎用MLLMであるSmartPath-R1を提案する。
本フレームワークは,スケール依存型微調整とタスク認識型強化微調整を組み合わせることで,チェーン・オブ・ファシリテータの必要性を回避する。
論文 参考訳(メタデータ) (2025-07-23T08:09:42Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models [1.7042756021131187]
本稿では,CBM(Concept Bottleneck Models)とRAG(Multi-Agent Retrieval-Augmented Generation)システムを組み合わせた自動放射線学レポート生成フレームワークを提案する。
CBMは胸部X線の特徴を人間の理解できない臨床概念にマッピングし、透明な疾患分類を可能にする。
RAGシステムはマルチエージェントのコラボレーションと外部知識を統合し、文脈的にリッチなエビデンスベースのレポートを生成する。
論文 参考訳(メタデータ) (2025-04-29T16:14:55Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Tool Calling: Enhancing Medication Consultation via Retrieval-Augmented Large Language Models [10.04914417538886]
大規模言語モデル(LLM)は、様々な言語タスクで顕著な成功を収めてきたが、幻覚や時間的ミスアライメントに悩まされている。
従来のtextitRetrieve-then-Read の代わりに,新しい textitDistill-Retrieve-Read フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-27T13:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。