論文の概要: MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis
- arxiv url: http://arxiv.org/abs/2407.04106v1
- Date: Thu, 4 Jul 2024 18:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:10:29.287252
- Title: MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis
- Title(参考訳): MiniGPT-Med:放射線診断のための汎用インタフェースとしての大規模言語モデル
- Authors: Asma Alkhaldi, Raneem Alnajim, Layan Alabdullatef, Rawan Alyahya, Jun Chen, Deyao Zhu, Ahmed Alsinan, Mohamed Elhoseiny,
- Abstract要約: MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
- 参考スコア(独自算出の注目度): 28.421857904824627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in artificial intelligence (AI) have precipitated significant breakthroughs in healthcare, particularly in refining diagnostic procedures. However, previous studies have often been constrained to limited functionalities. This study introduces MiniGPT-Med, a vision-language model derived from large-scale language models and tailored for medical applications. MiniGPT-Med demonstrates remarkable versatility across various imaging modalities, including X-rays, CT scans, and MRIs, enhancing its utility. The model is capable of performing tasks such as medical report generation, visual question answering (VQA), and disease identification within medical imagery. Its integrated processing of both image and textual clinical data markedly improves diagnostic accuracy. Our empirical assessments confirm MiniGPT-Med's superior performance in disease grounding, medical report generation, and VQA benchmarks, representing a significant step towards reducing the gap in assisting radiology practice. Furthermore, it achieves state-of-the-art performance on medical report generation, higher than the previous best model by 19\% accuracy. MiniGPT-Med promises to become a general interface for radiology diagnoses, enhancing diagnostic efficiency across a wide range of medical imaging applications.
- Abstract(参考訳): 人工知能(AI)の最近の進歩は、特に診断手順の洗練において、医療の大きなブレークスルーを引き起こしている。
しかし、以前の研究はしばしば限られた機能に制限された。
本研究では,大規模言語モデルから派生した視覚言語モデルであるMiniGPT-Medを紹介する。
MiniGPT-Medは、X線、CTスキャン、MRIなど、様々な画像モダリティにおいて、優れた汎用性を示し、その有用性を高めている。
このモデルは、医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
画像とテキストの臨床データの統合処理は、診断精度を著しく向上させる。
我々の経験的評価は,MiniGPT-Medの疾患接地,医療報告生成,VQAベンチマークにおける優れた成績を裏付けるものであり,放射線学の実践におけるギャップを減らすための重要なステップである。
さらに,従来の最良モデルよりも19倍の精度で,医療報告生成における最先端性能を実現する。
MiniGPT-Medは、放射線診断の一般的なインターフェースになり、幅広い医療画像アプリケーションにおける診断効率を高めることを約束している。
関連論文リスト
- 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography [2.004909615444003]
マルチモーダル大言語モデル (MLLM) は画像処理の一般分野において大きな成功を収めている。
We developed OrthoDoc, a MLLM designed for Computed Tomography (CT) diagnosiss。
大規模な実験では、OrthoDocはGPT-4による商用モデルよりも優れており、優れた診断能力と精度を示している。
論文 参考訳(メタデータ) (2024-08-30T13:31:32Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Review of Artificial Intelligence Techniques in Imaging Data
Acquisition, Segmentation and Diagnosis for COVID-19 [71.41929762209328]
新型コロナウイルス感染症(COVID-19)のパンデミックは世界中に広がっている。
X線やCT(Computerd Tomography)などの医用画像は、世界的な新型コロナウイルス対策に欠かせない役割を担っている。
最近登場した人工知能(AI)技術は、画像ツールの力を強化し、医療専門家を支援する。
論文 参考訳(メタデータ) (2020-04-06T15:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。