論文の概要: MMCS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation
- arxiv url: http://arxiv.org/abs/2410.15403v1
- Date: Sun, 20 Oct 2024 14:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:35.920586
- Title: MMCS: A Multimodal Medical Diagnosis System Integrating Image Analysis and Knowledge-based Departmental Consultation
- Title(参考訳): MMCS:画像解析と知識に基づく部門相談を統合したマルチモーダル医療診断システム
- Authors: Yi Ren, HanZhi Zhang, Weibin Li, Diandong Liu, Tianyi Zhang, Jie He,
- Abstract要約: MMCSは、医療画像や患者の顔の詳細を認識できるシステムである。
第1の構成要素は、医療画像とビデオの分析である。
第2の要素は、専門的な医療反応の生成である。
- 参考スコア(独自算出の注目度): 16.52765213063673
- License:
- Abstract: We present MMCS, a system capable of recognizing medical images and patient facial details, and providing professional medical diagnoses. The system consists of two core components: The first component is the analysis of medical images and videos. We trained a specialized multimodal medical model capable of interpreting medical images and accurately analyzing patients' facial emotions and facial paralysis conditions. The model achieved an accuracy of 72.59% on the FER2013 facial emotion recognition dataset, with a 91.1% accuracy in recognizing the happy emotion. In facial paralysis recognition, the model reached an accuracy of 92%, which is 30% higher than that of GPT-4o. Based on this model, we developed a parser for analyzing facial movement videos of patients with facial paralysis, achieving precise grading of the paralysis severity. In tests on 30 videos of facial paralysis patients, the system demonstrated a grading accuracy of 83.3%.The second component is the generation of professional medical responses. We employed a large language model, integrated with a medical knowledge base, to generate professional diagnoses based on the analysis of medical images or videos. The core innovation lies in our development of a department-specific knowledge base routing management mechanism, in which the large language model categorizes data by medical departments and, during the retrieval process, determines the appropriate knowledge base to query. This significantly improves retrieval accuracy in the RAG (retrieval-augmented generation) process. This mechanism led to an average increase of 4 percentage points in accuracy for various large language models on the MedQA dataset.Our code is open-sourced and available at: https://github.com/renllll/MMCS.
- Abstract(参考訳): MMCSは,医療画像や患者の顔の詳細を認識でき,専門的な診断を行うことができるシステムである。
最初のコンポーネントは、医療画像とビデオの分析である。
我々は,医療画像の解釈と患者の顔の感情や顔面麻痺状態の正確に分析が可能な,専門的なマルチモーダル医療モデルを訓練した。
このモデルは、幸せな感情を認識するための91.1%の精度で、FER2013顔の感情認識データセットで72.59%の精度を達成した。
顔面麻痺の診断では、GPT-4oよりも30%高い92%の精度に達した。
本モデルに基づいて,顔面麻痺患者の顔面運動映像を解析し,麻痺重症度を正確に評価する解析装置を開発した。
顔面麻痺患者の30回のビデオで、システムは83.3%のグレーディング精度を示した。
第2の要素は、専門的な医療反応の生成である。
医用知識ベースと統合された大規模言語モデルを用いて,医用画像やビデオの分析に基づいて専門的な診断を行う。
中心となる革新は、大言語モデルが医療部門によってデータを分類する部門固有の知識ベースルーティング管理機構の開発であり、検索プロセス中にクエリーに適した知識ベースを決定する。
これにより、RAG(retrieval-augmented generation)プロセスの検索精度が大幅に向上する。
このメカニズムにより、MedQAデータセット上のさまざまな大規模言語モデルの精度が平均4ポイント向上した。私たちのコードはオープンソースで、https://github.com/renllll/MMCS.comで利用可能です。
関連論文リスト
- Deep Learning Applications in Medical Image Analysis: Advancements, Challenges, and Future Directions [0.0]
人工知能のサブセットであるディープラーニングの最近の進歩は、医療画像の分析に大きな革命をもたらした。
CNNは多次元医用画像から自律的に学習する能力に顕著な能力を示した。
これらのモデルは、病理学、放射線学、眼科、心臓学など、様々な医学分野に利用されてきた。
論文 参考訳(メタデータ) (2024-10-18T02:57:14Z) - Liver Cancer Knowledge Graph Construction based on dynamic entity replacement and masking strategies RoBERTa-BiLSTM-CRF model [12.467967838229452]
肝癌は本邦で5番目に多い悪性腫瘍であり,2番目に死亡率が高い。
早期診断は極めて重要であり,早期に肝癌を診断する必要がある。
論文 参考訳(メタデータ) (2024-10-08T07:57:29Z) - Automated facial recognition system using deep learning for pain
assessment in adults with cerebral palsy [0.5242869847419834]
既存の対策は、介護者による直接の観察に依存し、感度と特異性に欠ける。
10のニューラルネットワークが3つの痛み画像データベースでトレーニングされた。
InceptionV3はCP-PAINデータセット上で有望なパフォーマンスを示した。
論文 参考訳(メタデータ) (2024-01-22T17:55:16Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Unlocking the Potential of Medical Imaging with ChatGPT's Intelligent
Diagnostics [2.8484009470171943]
本論は、医療提供者や患者が健康状態の診断、治療、管理に関する意思決定を行うのを支援するための意思決定支援システムを設計することを目的とする。
提案アーキテクチャは,1)データ収集とラベル付け,2)モデルトレーニング,3)診断レポート生成の3段階を含む。
提案システムには,意思決定の強化,コスト削減,医療提供者の能力向上が期待できる。
論文 参考訳(メタデータ) (2023-05-12T12:52:14Z) - Segment Anything in Medical Images [21.43661408153244]
医用画像の普遍的分割を可能にする基盤モデルであるMedSAMについて述べる。
このモデルは、1,570,263枚の画像マスク対を持つ大規模医療画像データセット上で開発され、10種類の画像モダリティと30以上のがんタイプをカバーする。
論文 参考訳(メタデータ) (2023-04-24T17:56:12Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。