論文の概要: MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis
- arxiv url: http://arxiv.org/abs/2407.04106v1
- Date: Thu, 4 Jul 2024 18:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:10:29.287252
- Title: MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis
- Title(参考訳): MiniGPT-Med:放射線診断のための汎用インタフェースとしての大規模言語モデル
- Authors: Asma Alkhaldi, Raneem Alnajim, Layan Alabdullatef, Rawan Alyahya, Jun Chen, Deyao Zhu, Ahmed Alsinan, Mohamed Elhoseiny,
- Abstract要約: MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
- 参考スコア(独自算出の注目度): 28.421857904824627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in artificial intelligence (AI) have precipitated significant breakthroughs in healthcare, particularly in refining diagnostic procedures. However, previous studies have often been constrained to limited functionalities. This study introduces MiniGPT-Med, a vision-language model derived from large-scale language models and tailored for medical applications. MiniGPT-Med demonstrates remarkable versatility across various imaging modalities, including X-rays, CT scans, and MRIs, enhancing its utility. The model is capable of performing tasks such as medical report generation, visual question answering (VQA), and disease identification within medical imagery. Its integrated processing of both image and textual clinical data markedly improves diagnostic accuracy. Our empirical assessments confirm MiniGPT-Med's superior performance in disease grounding, medical report generation, and VQA benchmarks, representing a significant step towards reducing the gap in assisting radiology practice. Furthermore, it achieves state-of-the-art performance on medical report generation, higher than the previous best model by 19\% accuracy. MiniGPT-Med promises to become a general interface for radiology diagnoses, enhancing diagnostic efficiency across a wide range of medical imaging applications.
- Abstract(参考訳): 人工知能(AI)の最近の進歩は、特に診断手順の洗練において、医療の大きなブレークスルーを引き起こしている。
しかし、以前の研究はしばしば限られた機能に制限された。
本研究では,大規模言語モデルから派生した視覚言語モデルであるMiniGPT-Medを紹介する。
MiniGPT-Medは、X線、CTスキャン、MRIなど、様々な画像モダリティにおいて、優れた汎用性を示し、その有用性を高めている。
このモデルは、医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
画像とテキストの臨床データの統合処理は、診断精度を著しく向上させる。
我々の経験的評価は,MiniGPT-Medの疾患接地,医療報告生成,VQAベンチマークにおける優れた成績を裏付けるものであり,放射線学の実践におけるギャップを減らすための重要なステップである。
さらに,従来の最良モデルよりも19倍の精度で,医療報告生成における最先端性能を実現する。
MiniGPT-Medは、放射線診断の一般的なインターフェースになり、幅広い医療画像アプリケーションにおける診断効率を高めることを約束している。
関連論文リスト
- MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot [47.77948063906033]
Retrieval-augmented Generation (RAG)は、プライバシーに敏感な電子健康記録を検索するのに適した手法である。
本稿では,医療領域に対する知識グラフ(KG)により強化されたRAGモデルであるMedRAGを提案する。
MedRAGはより具体的な診断の洞察を提供し、誤診率の低減に最先端のモデルを上回っている。
論文 参考訳(メタデータ) (2025-02-06T12:27:35Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - GIT-CXR: End-to-End Transformer for Chest X-Ray Report Generation [2.8900715468305767]
我々は,X線画像の高精度かつ実測的に完全なラジオグラフィーレポートを生成するために,エンドツーエンドのトランスフォーマーベースの手法を設計,評価した。
実験はMIMIC-CXR-JPGデータベースを用いて行われた。
論文 参考訳(メタデータ) (2025-01-05T16:45:49Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography [2.004909615444003]
マルチモーダル大言語モデル (MLLM) は画像処理の一般分野において大きな成功を収めている。
We developed OrthoDoc, a MLLM designed for Computed Tomography (CT) diagnosiss。
大規模な実験では、OrthoDocはGPT-4による商用モデルよりも優れており、優れた診断能力と精度を示している。
論文 参考訳(メタデータ) (2024-08-30T13:31:32Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。