Fugu-MT 論文翻訳(概要): Cultivating Multimodal Intelligence: Interpretive Reasoning and Agentic RAG Approaches to Dermatological Diagnosis

論文の概要: Cultivating Multimodal Intelligence: Interpretive Reasoning and Agentic RAG Approaches to Dermatological Diagnosis

arxiv url: http://arxiv.org/abs/2507.05520v1
Date: Mon, 07 Jul 2025 22:31:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.435684
Title: Cultivating Multimodal Intelligence: Interpretive Reasoning and Agentic RAG Approaches to Dermatological Diagnosis
Title（参考訳）: マルチモーダルインテリジェンスを育成する : 解釈推論とエージェントRAGによる皮膚科診断
Authors: Karishma Thakrar, Shreyas Basavatia, Akshay Daftardar,
Abstract要約: 2025年のImageCLEF MEDIQA-MAGIC チャレンジの第2版では、マルチモーダル皮膚科の質問応答とセグメンテーションに焦点を当てている。本研究はCVQA(Closed Visual Question Answering)課題に対処し,複数項目の臨床質問に対する正しい回答を選択することを目的としている。チームは6得点を挙げて2位となり、競争力と高い精度を誇った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The second edition of the 2025 ImageCLEF MEDIQA-MAGIC challenge, co-organized by researchers from Microsoft, Stanford University, and the Hospital Clinic of Barcelona, focuses on multimodal dermatology question answering and segmentation, using real-world patient queries and images. This work addresses the Closed Visual Question Answering (CVQA) task, where the goal is to select the correct answer to multiple-choice clinical questions based on both user-submitted images and accompanying symptom descriptions. The proposed approach combines three core components: (1) fine-tuning open-source multimodal models from the Qwen, Gemma, and LLaMA families on the competition dataset, (2) introducing a structured reasoning layer that reconciles and adjudicates between candidate model outputs, and (3) incorporating agentic retrieval-augmented generation (agentic RAG), which adds relevant information from the American Academy of Dermatology's symptom and condition database to fill in gaps in patient context. The team achieved second place with a submission that scored sixth, demonstrating competitive performance and high accuracy. Beyond competitive benchmarks, this research addresses a practical challenge in telemedicine: diagnostic decisions must often be made asynchronously, with limited input and with high accuracy and interpretability. By emulating the systematic reasoning patterns employed by dermatologists when evaluating skin conditions, this architecture provided a pathway toward more reliable automated diagnostic support systems.
Abstract（参考訳）: 2025年のImageCLEF MEDIQA-MAGICチャレンジの第2版は、Microsoft、スタンフォード大学、バルセロナ病院の研究者たちが共同で、現実世界の患者クエリとイメージを使用して、マルチモーダル皮膚科の質問応答とセグメンテーションに焦点を当てている。本研究はCVQA(Closed Visual Question Answering)課題に対処し、ユーザからの投稿された画像とそれに伴う症状記述に基づいて、複数の選択された臨床質問に対する正しい回答を選択することを目的としている。提案手法は,(1)コンペティションデータセット上のQwen,Gemma,LLaMAファミリーのオープンソースマルチモーダルモデルの微調整,(2)候補モデルの出力を調整・調整する構造化推論層の導入,(3)アメリカン・アカデミー・オブ・ダーマトロジーの症状と条件データベースから関連する情報を付加して患者コンテキストのギャップを埋めるエージェント検索強化世代(Adntic RAG)の導入,の3つのコアコンポーネントを組み合わせる。チームは6得点を挙げて2位となり、競争力と高い精度を誇った。この研究は、競合するベンチマークを超えて、遠隔医療における実践的な課題に対処する。診断決定はしばしば、限られた入力と高い精度と解釈可能性で非同期に行われなければならない。皮膚疾患の評価において皮膚科医が用いた系統的推論パターンをエミュレートすることにより、このアーキテクチャはより信頼性の高い自動診断支援システムへの道筋となった。

関連論文リスト

MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。 1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文参考訳（メタデータ） (2025-06-12T08:13:38Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion [4.821565717653691]
Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。本研究では, 詳細な医療質問に対する階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA法を提案する。 Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
論文参考訳（メタデータ） (2025-04-04T03:03:12Z)
MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。 MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文参考訳（メタデータ） (2025-03-10T15:38:44Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。 151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文参考訳（メタデータ） (2024-11-25T07:36:46Z)
WangLab at MEDIQA-M3G 2024: Multimodal Medical Answer Generation using Large Language Models [5.7931394318054155]
タスクの英語圏における2つのスタンドアロン解について結果を報告する。我々は,多段階LLM法とCLIP画像分類法を,今後の研究の道筋として捉えた。
論文参考訳（メタデータ） (2024-04-22T20:29:58Z)
MedThink: Explaining Medical Visual Question Answering via Multimodal Decision-Making Rationale [19.94415334436024]
我々は、データ準備を効率化し、新しいベンチマークMedVQAデータセットを構築するための半自動アノテーションプロセスを開発した。これらのデータセットは、マルチモーダルな大言語モデルと人間のアノテーションによって生成される中間的な医学的意思決定の合理性を提供する。我々はまた、医学的意思決定の合理性を取り入れた軽量な事前学習生成モデルを微調整する新しいフレームワーク、MedThinkを設計する。
論文参考訳（メタデータ） (2024-04-18T17:53:19Z)
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文参考訳（メタデータ） (2024-02-28T05:44:41Z)
Q-Net: Query-Informed Few-Shot Medical Image Segmentation [5.615188751640673]
本稿では,専門医の学習機構を模倣したクエリインフォームドメタFSSアプローチを提案する。我々は最近提案された異常検出にインスパイアされたADNetに基づいてQ-Netを構築する。 Q-Netは2つの広く使用されているデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-24T11:36:53Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)
MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。 MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文参考訳（メタデータ） (2020-10-15T03:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。