論文の概要: Accuracy of a Vision-Language Model on Challenging Medical Cases
- arxiv url: http://arxiv.org/abs/2311.05591v1
- Date: Thu, 9 Nov 2023 18:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 13:59:08.803457
- Title: Accuracy of a Vision-Language Model on Challenging Medical Cases
- Title(参考訳): 難治医療における視覚言語モデルの正確性
- Authors: Thomas Buckley, James A. Diao, Adam Rodman, Arjun K. Manrai
- Abstract要約: テキストと画像の両方を利用する汎用的な大規模言語モデルは、様々な困難な医療事例において評価されていない。
我々は最近リリースされたGPT-4V(Generative Pre-trained Transformer 4 with Vision Model)の精度を,ヒトと比較して評価した。
また,69回のNEJMクリニカル・コンファレンスでGPT-4Vの医師評価を行った。
- 参考スコア(独自算出の注目度): 1.7726473251723847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: General-purpose large language models that utilize both text and
images have not been evaluated on a diverse array of challenging medical cases.
Methods: Using 934 cases from the NEJM Image Challenge published between 2005
and 2023, we evaluated the accuracy of the recently released Generative
Pre-trained Transformer 4 with Vision model (GPT-4V) compared to human
respondents overall and stratified by question difficulty, image type, and skin
tone. We further conducted a physician evaluation of GPT-4V on 69 NEJM
clinicopathological conferences (CPCs). Analyses were conducted for models
utilizing text alone, images alone, and both text and images.
Results: GPT-4V achieved an overall accuracy of 61% (95% CI, 58 to 64%)
compared to 49% (95% CI, 49 to 50%) for humans. GPT-4V outperformed humans at
all levels of difficulty and disagreement, skin tones, and image types; the
exception was radiographic images, where performance was equivalent between
GPT-4V and human respondents. Longer, more informative captions were associated
with improved performance for GPT-4V but similar performance for human
respondents. GPT-4V included the correct diagnosis in its differential for 80%
(95% CI, 68 to 88%) of CPCs when using text alone, compared to 58% (95% CI, 45
to 70%) of CPCs when using both images and text.
Conclusions: GPT-4V outperformed human respondents on challenging medical
cases and was able to synthesize information from both images and text, but
performance deteriorated when images were added to highly informative text.
Overall, our results suggest that multimodal AI models may be useful in medical
diagnostic reasoning but that their accuracy may depend heavily on context.
- Abstract(参考訳): 背景: テキストと画像の両方を利用する汎用大規模言語モデルは、様々な挑戦的な医療事例で評価されていない。
方法: 2005年から2023年にかけて公表されたnejm画像チャレンジの934例を用いて視覚モデル(gpt-4v)を用いた生成前訓練トランスフォーマ4の正確性を評価し,質問難易度,画像タイプ,皮膚トーンによる階層化を行った。
さらに,69 NEJM 臨床病理学的カンファレンス (CPCs) における GPT-4V の評価を行った。
テキストのみ、画像のみ、およびテキストと画像の両方を利用したモデルの解析を行った。
結果: GPT-4Vは全体の精度が61% (95% CI, 58~64%) であり, ヒトでは49% (95% CI, 49~50%) であった。
gpt-4vは、あらゆる難易度、不一致、肌色、画像タイプで人間を上回り、例外は、gpt-4vとヒトの回答者の間でパフォーマンスが同等であった放射線画像であった。
GPT-4Vの性能は向上したが,ヒトでは同等であった。
gpt-4vでは、テキストのみを使用する場合のcpcの80% (95% ci, 68から88%) と、画像とテキストの両方を使用する場合のcpcの58% (95% ci, 45から70%) が正しい診断であった。
結論: gpt-4vは, 難治な医療症例において, 被験者を上回っており, 画像とテキストの両方から情報を合成することができたが, 高情報テキストに画像を追加すると, 性能が低下した。
以上の結果から,マルチモーダルAIモデルは診断的推論に有用であるが,精度は文脈に大きく依存する可能性が示唆された。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning [12.10183458424711]
本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
論文 参考訳(メタデータ) (2023-11-02T05:44:13Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - Medical diffusion on a budget: Textual Inversion for medical image generation [3.0826983115939823]
スクラッチからトレーニングするには、大きなキャプション付きデータセットと重要な計算リソースが必要である。
本研究は, 予め訓練した安定拡散モデルを医用画像モダリティに適応させることが, テキスト埋め込みの訓練によって達成可能であることを示す。
トレーニングされた埋め込みはコンパクト(1MB未満)で、プライバシー上の懸念を減らしてデータ共有を容易にする。
論文 参考訳(メタデータ) (2023-03-23T16:50:19Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Discriminative Cross-Modal Data Augmentation for Medical Imaging
Applications [24.06277026586584]
深層学習法は医用画像解析において大きな成功を収めており、訓練には多くの医用画像が必要である。
データプライバシの懸念と医療アノテータの有効性のため、モデルトレーニングのためにラベル付き医療画像を得るのは非常に困難であることが多い。
本稿では,画像のソースモダリティを目標モダリティに変換する画像対画像変換モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T15:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。