論文の概要: Large Language Model Aided Birt-Hogg-Dube Syndrome Diagnosis with Multimodal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.19834v1
- Date: Tue, 25 Nov 2025 01:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.228043
- Title: Large Language Model Aided Birt-Hogg-Dube Syndrome Diagnosis with Multimodal Retrieval-Augmented Generation
- Title(参考訳): 大規模言語モデルを用いたマルチモーダル検索・拡張ジェネレーションによるBRT-Dube症候群の診断
- Authors: Haoqing Li, Jun Shi, Xianmeng Chen, Qiwei Jia, Rui Wang, Wei Wei, Hong An, Xiaowen Hu,
- Abstract要約: 深層学習法は,びまん性嚢胞性肺疾患において,臨床サンプルの限定とクラス間分化の低さという2つの課題に直面している。
我々は,DCLD特有の専門知識と臨床の先例を統合した多モーダル検索拡張生成フレームワークであるBHD-RAGを提案する。
BHD-RAGは4種類のDCLDを含むデータセット上で検証され、精度が向上し、専門家の洞察と密接に一致したエビデンスベースの記述を生成する。
- 参考スコア(独自算出の注目度): 12.246474126477416
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning methods face dual challenges of limited clinical samples and low inter-class differentiation among Diffuse Cystic Lung Diseases (DCLDs) in advancing Birt-Hogg-Dube syndrome (BHD) diagnosis via Computed Tomography (CT) imaging. While Multimodal Large Language Models (MLLMs) demonstrate diagnostic potential fo such rare diseases, the absence of domain-specific knowledge and referable radiological features intensify hallucination risks. To address this problem, we propose BHD-RAG, a multimodal retrieval-augmented generation framework that integrates DCLD-specific expertise and clinical precedents with MLLMs to improve BHD diagnostic accuracy. BHDRAG employs: (1) a specialized agent generating imaging manifestation descriptions of CT images to construct a multimodal corpus of DCLDs cases. (2) a cosine similarity-based retriever pinpointing relevant imagedescription pairs for query images, and (3) an MLLM synthesizing retrieved evidence with imaging data for diagnosis. BHD-RAG is validated on the dataset involving four types of DCLDs, achieving superior accuracy and generating evidence-based descriptions closely aligned with expert insights.
- Abstract(参考訳): 深層学習法は,CTによるBert-Hogg-Dube症候群(BHD)の進行に際し,臨床検体に限局した2つの課題と,Diffuse Cystic Lung Diseases(DCLDs)の低クラス分化に直面する。
MLLM(Multimodal Large Language Models)は、そのような稀な疾患の診断の可能性を示すが、ドメイン固有の知識の欠如と参照可能な放射線学的特徴が幻覚のリスクを高める。
この問題に対処するため,我々は,BHD診断精度を向上させるために,DCLD特有の専門知識と臨床例をMLLMと統合したマルチモーダル検索拡張生成フレームワークであるBHD-RAGを提案する。
BHDRAGは,(1)CT画像の画像表示記述を生成する特殊なエージェントを用いて,DCLD症例のマルチモーダルコーパスを構築する。
2)検索画像の関連画像記述ペアをピンポイントするコサイン類似性に基づく検索装置,(3)検索された証拠を診断用画像データで合成するMLLM。
BHD-RAGは4種類のDCLDを含むデータセット上で検証され、精度が向上し、専門家の洞察と密接に一致したエビデンスベースの記述を生成する。
関連論文リスト
- Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks [54.00822479127598]
医療診断(MDS)という医用視覚言語タスクについて紹介する。
MDSは、医療画像に対する臨床クエリを理解し、対応するセグメンテーションマスクと診断結果を生成することを目的としている。
診断セグメンテーションの性能を向上させる新しいフレームワークであるSim4Segを提案する。
論文 参考訳(メタデータ) (2025-11-10T03:22:42Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - XDR-LVLM: An Explainable Vision-Language Large Model for Diabetic Retinopathy Diagnosis [0.0]
LVLMを用いたXDR-LVLM(eXplainable Diabetic Retinopathy diagnosis with LVLM)を提案する。
XDR-LVLMは特殊な医療ビジョン、LVLMコアを統合し、マルチタスク・プロンプトエンジニアリングとマルチステージファインチューニングを採用している。
最先端のパフォーマンスを実現し、バランスド精度は84.55%、F1スコアは79.92%、概念検出には優れた結果が得られる。
論文 参考訳(メタデータ) (2025-08-21T02:14:46Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - Dia-LLaMA: Towards Large Language Model-driven CT Report Generation [4.634780391920529]
診断情報をガイダンスとして組み込むことで,CTレポート生成にLLaMA2-7Bを適用するためのフレームワークであるDia-LLaMAを提案する。
我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。
報告生成のためのLCMを調整し,異常を強調するため,病原体記憶バンクを参照して,追加の診断情報を抽出する。
論文 参考訳(メタデータ) (2024-03-25T03:02:51Z) - NEEDED: Introducing Hierarchical Transformer to Eye Diseases Diagnosis [5.608716029921948]
本報告では,眼科領域における眼科領域の自動診断フレームワークNEEDEDについて述べる。
情報密度と品質を改善するために前処理モジュールを統合する。
診断部では,病原性情報を取得することにより,追跡可能な診断を可能にする注意ベースの予測器を提案する。
論文 参考訳(メタデータ) (2022-12-27T08:37:57Z) - A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading,
and Transferability [76.64661091980531]
糖尿病患者は糖尿病網膜症(DR)を発症するリスクがある
コンピュータ支援型DR診断は、DRの早期検出と重度評価のための有望なツールである。
このデータセットは、ピクセルレベルのDR関連病変アノテーションを持つ1,842枚の画像と、6人の眼科医によって評価された画像レベルのラベルを持つ1,000枚の画像を有する。
論文 参考訳(メタデータ) (2020-08-22T07:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。