論文の概要: OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography
- arxiv url: http://arxiv.org/abs/2409.09052v1
- Date: Fri, 30 Aug 2024 13:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:42:00.763806
- Title: OrthoDoc: Multimodal Large Language Model for Assisting Diagnosis in Computed Tomography
- Title(参考訳): OrthoDoc:CTにおける診断支援のための多モード大言語モデル
- Authors: Youzhu Jin, Yichen Zhang,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は画像処理の一般分野において大きな成功を収めている。
We developed OrthoDoc, a MLLM designed for Computed Tomography (CT) diagnosiss。
大規模な実験では、OrthoDocはGPT-4による商用モデルよりも優れており、優れた診断能力と精度を示している。
- 参考スコア(独自算出の注目度): 2.004909615444003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved significant success in the general field of image processing. Their emerging task generalization and freeform conversational capabilities can greatly facilitate medical diagnostic assistance, helping patients better understand their conditions and enhancing doctor-patient trust. Computed Tomography (CT) is a non-invasive imaging technique used to capture the internal mechanisms of a patient's condition and is widely utilized. However, in past research, the complex textural features of this imaging data have made accurate interpretation by algorithms challenging, impeding the performance of general LLMs in diagnostic assistance. To address this, we developed OrthoDoc, a MLLM designed for CT diagnostics. OrthoDoc is trained on 120,000 CT images and diagnostic reports and includes a Retrieval-Augmented Generation (RAG) module capable of effectively mitigating model hallucinations. This module is informed by extensive medical literature, textbooks, and explanatory data. Thus, OrthoDoc not only processes complex CT images but also stores, understands, and reasons over medical knowledge and language. In extensive experiments, OrthoDoc outperforms commercial models led by GPT-4, demonstrating superior diagnostic capabilities and accuracy. Specifically, OrthoDoc significantly surpasses existing models in the diagnosis of common orthopedic conditions such as fractures, arthritis, and tumors. Additionally, OrthoDoc exhibits robust generalization and stability when handling rare and complex cases.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は画像処理の一般分野において大きな成功を収めている。
彼らのタスクの一般化とフリーフォームの会話能力は、医師の診断支援を大いに促進し、患者の状態をよりよく理解し、医師と患者の信頼を高めるのに役立つ。
CT(Computed Tomography)は、患者の病態の内部メカニズムを捉えた非侵襲的イメージング技術であり、広く利用されている。
しかし, 過去の研究では, この画像データの複雑なテクスチャ的特徴は, アルゴリズムによる正確な解釈を困難にしており, 診断支援における一般LLMの性能を阻害している。
そこで我々は,CT診断のためのMLLMであるOrthoDocを開発した。
OrthoDocは12万のCT画像と診断レポートに基づいてトレーニングされており、モデル幻覚を効果的に緩和するRetrieval-Augmented Generation (RAG)モジュールを含んでいる。
このモジュールは、広範な医学文献、教科書、説明データによって通知される。
したがって、OrthoDocは複雑なCT画像を処理するだけでなく、医学的知識や言語に関する理由を保存し、理解する。
大規模な実験では、OrthoDocはGPT-4による商用モデルよりも優れており、優れた診断能力と精度を示している。
具体的には、OrthoDocは骨折、関節炎、腫瘍などの一般的な整形外科疾患の診断において、既存のモデルを大幅に上回っている。
さらに、OrthoDocは稀で複雑なケースを扱う際に、堅牢な一般化と安定性を示す。
関連論文リスト
- MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文 参考訳(メタデータ) (2024-07-04T18:21:10Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Language Augmentation in CLIP for Improved Anatomy Detection on Multi-modal Medical Images [1.4680035572775536]
ヴィジュアル言語モデルは、医療領域におけるマルチモーダル分類問題に挑戦するための強力なツールとして登場した。
既存の研究は、特定のモダリティや身体領域の臨床的記述に焦点を当てており、全身のマルチモーダル記述を提供するモデルにギャップを残している。
本稿では,マルチモーダルMRIおよびCT画像において,全身の標準化された体局と臓器のリストの自動生成により,このギャップに対処する。
論文 参考訳(メタデータ) (2024-05-31T09:59:11Z) - A New Multimodal Medical Image Fusion based on Laplacian Autoencoder
with Channel Attention [3.1531360678320897]
ディープラーニングモデルは、非常に堅牢で正確なパフォーマンスでエンドツーエンドの画像融合を実現した。
ほとんどのDLベースの融合モデルは、学習可能なパラメータや計算量を最小限に抑えるために、入力画像上でダウンサンプリングを行う。
本稿では,ラープラシア・ガウス統合とアテンションプールを融合したマルチモーダル医用画像融合モデルを提案する。
論文 参考訳(メタデータ) (2023-10-18T11:29:53Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - CephGPT-4: An Interactive Multimodal Cephalometric Measurement and
Diagnostic System with Visual Large Language Model [4.64641334287597]
CephGPT-4モデルは優れた性能を示し、矯正的測定と診断の応用に革命をもたらす可能性がある。
これらの革新は矯正学の分野で革命的応用の可能性を持っている。
論文 参考訳(メタデータ) (2023-07-01T15:41:12Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs [48.11532667875847]
ChatCAD+は高品質な医療レポートを生成し、信頼できる医療アドバイスを提供するツールである。
信頼性レポート生成モジュールは、医療画像を解釈し、高品質な医療レポートを生成することができる。
Reliable Interactionモジュールは、信頼できる医療アドバイスを提供するために、信頼できる医療ウェブサイトからの最新の情報を活用する。
論文 参考訳(メタデータ) (2023-05-25T12:03:31Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z) - Review of Artificial Intelligence Techniques in Imaging Data
Acquisition, Segmentation and Diagnosis for COVID-19 [71.41929762209328]
新型コロナウイルス感染症(COVID-19)のパンデミックは世界中に広がっている。
X線やCT(Computerd Tomography)などの医用画像は、世界的な新型コロナウイルス対策に欠かせない役割を担っている。
最近登場した人工知能(AI)技術は、画像ツールの力を強化し、医療専門家を支援する。
論文 参考訳(メタデータ) (2020-04-06T15:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。