論文の概要: MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction
- arxiv url: http://arxiv.org/abs/2508.19319v1
- Date: Tue, 26 Aug 2025 13:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.376544
- Title: MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction
- Title(参考訳): MedVQA-TREE:Sarcopenia予測のためのマルチモーダル推論と検索フレームワーク
- Authors: Pardis Moradbeiki, Nasser Ghadiri, Sayed Jalal Zahabi, Uffe Kock Wiil, Kristoffer Kittelmann Brockhattingen, Ali Ebrahimi,
- Abstract要約: MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップ・マルチクエリ検索戦略を統合したフレームワークである。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
- 参考スコア(独自算出の注目度): 1.7775777785480917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate sarcopenia diagnosis via ultrasound remains challenging due to subtle imaging cues, limited labeled data, and the absence of clinical context in most models. We propose MedVQA-TREE, a multimodal framework that integrates a hierarchical image interpretation module, a gated feature-level fusion mechanism, and a novel multi-hop, multi-query retrieval strategy. The vision module includes anatomical classification, region segmentation, and graph-based spatial reasoning to capture coarse, mid-level, and fine-grained structures. A gated fusion mechanism selectively integrates visual features with textual queries, while clinical knowledge is retrieved through a UMLS-guided pipeline accessing PubMed and a sarcopenia-specific external knowledge base. MedVQA-TREE was trained and evaluated on two public MedVQA datasets (VQA-RAD and PathVQA) and a custom sarcopenia ultrasound dataset. The model achieved up to 99% diagnostic accuracy and outperformed previous state-of-the-art methods by over 10%. These results underscore the benefit of combining structured visual understanding with guided knowledge retrieval for effective AI-assisted diagnosis in sarcopenia.
- Abstract(参考訳): 超音波による正確なサルコニア診断は、微妙な画像的手がかり、限られたラベル付きデータ、多くのモデルで臨床状況が欠如しているため、依然として困難である。
MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップマルチクエリ検索戦略を統合したマルチモーダルフレームワークである。
視覚モジュールは、解剖学的分類、領域分割、グラフベースの空間推論を含み、粗い、中程度、きめ細かな構造をキャプチャする。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
MedVQA-TREEは、2つの公開MedVQAデータセット(VQA-RADとPathVQA)と独自のサルコピア超音波データセットで訓練され評価された。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
これらの結果は、サルコニアにおける効果的なAI支援診断のための、構造化された視覚的理解とガイド付き知識検索の併用の利点を浮き彫りにした。
関連論文リスト
- MEDMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph [28.79000907242469]
医用マルチモーダル知識グラフであるMEDMKGを提案する。
我々は,3つのタスクにまたがるMEDMKGを2つの実験的な設定で評価し,24のベースライン法と4つの最先端のビジョン言語バックボーンを6つのデータセットでベンチマークした。
その結果,MEDMKGは下流医療タスクの性能向上だけでなく,医療人工知能におけるマルチモーダル知識統合のための適応的かつ堅牢な戦略開発のための強力な基盤を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:41:46Z) - Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion [4.821565717653691]
Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。
本研究では, 詳細な医療質問に対する階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA法を提案する。
Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-04-04T03:03:12Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - MedGrad E-CLIP: Enhancing Trust and Transparency in AI-Driven Skin Lesion Diagnosis [2.9540164442363976]
この研究は、異なる皮膚病変データセットに基づいて訓練されたCLIP(Contrastive Language- Image Pretraining)モデルを用いて、視覚的特徴と診断基準項の間の有意義な関係を捉える。
皮膚病変などの複雑な医用画像に重み付けされたエントロピー機構を組み込むことにより,勾配に基づくE-CLIP上に構築するMedGrad E-CLIP法を提案する。
画像の異なる特徴が診断基準とどのように関連しているかを視覚的に説明することにより、医用画像解析における高度な視覚言語モデルの可能性を示す。
論文 参考訳(メタデータ) (2025-01-12T17:50:47Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Contextual Information Enhanced Convolutional Neural Networks for
Retinal Vessel Segmentation in Color Fundus Images [0.0]
自動網膜血管セグメンテーションシステムは、臨床診断及び眼科研究を効果的に促進することができる。
ディープラーニングベースの手法が提案され、いくつかのカスタマイズされたモジュールが有名なエンコーダデコーダアーキテクチャU-netに統合されている。
その結果,提案手法は先行技術よりも優れ,感性/リコール,F1スコア,MCCの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-03-25T06:10:47Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。