論文の概要: Self-supervised Multi-modal Training from Uncurated Image and Reports
Enables Zero-shot Oversight Artificial Intelligence in Radiology
- arxiv url: http://arxiv.org/abs/2208.05140v4
- Date: Wed, 12 Apr 2023 10:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 18:54:07.132734
- Title: Self-supervised Multi-modal Training from Uncurated Image and Reports
Enables Zero-shot Oversight Artificial Intelligence in Radiology
- Title(参考訳): 放射線学におけるゼロショットオーバストインテリジェンスを可能にする画像とレポートからの自己教師型マルチモーダルトレーニング
- Authors: Sangjoon Park, Eun Sun Lee, Kyung Sook Shin, Jeong Eun Lee, and Jong
Chul Ye
- Abstract要約: 医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。
我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。
提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
- 参考スコア(独自算出の注目度): 31.045221580446963
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Oversight AI is an emerging concept in radiology where the AI forms a
symbiosis with radiologists by continuously supporting radiologists in their
decision-making. Recent advances in vision-language models sheds a light on the
long-standing problems of the oversight AI by the understanding both visual and
textual concepts and their semantic correspondences. However, there have been
limited successes in the application of vision-language models in the medical
domain, as the current vision-language models and learning strategies for
photographic images and captions call for the web-scale data corpus of image
and text pairs which was not often feasible in the medical domain. To address
this, here we present a model dubbed Medical Cross-attention Vision-Language
model (Medical X-VL), leveraging the key components to be tailored for the
medical domain. Our medical X-VL model is based on the following components:
self-supervised uni-modal models in medical domain and fusion encoder to bridge
them, momentum distillation, sentence-wise contrastive learning for medical
reports, and the sentence similarity-adjusted hard negative mining. We
experimentally demonstrated that our model enables various zero-shot tasks for
oversight AI, ranging from the zero-shot classification to zero-shot error
correction. Our model outperformed the current state-of-the-art models in two
different medical image database, suggesting the novel clinical usage of our
oversight AI model for monitoring human errors. Our method was especially
successful in the data-limited setting, which is frequently encountered in the
clinics, suggesting the potential widespread applicability in medical domain.
- Abstract(参考訳): oversight aiは放射線医学における新たな概念であり、放射線科医の意思決定を継続的に支援することにより、放射線科医との共生を形成する。
視覚言語モデルの最近の進歩は、視覚とテキストの概念とその意味的対応を理解することによって、監視aiの長年の問題に光を当てている。
しかし、現在の視覚言語モデルや写真やキャプションの学習戦略では、医学領域ではあまり実現できない画像とテキストペアのwebスケールのデータコーパスを要求するため、医療領域での視覚言語モデルの適用は限定的に成功している。
そこで本論文では,医療領域に適した重要な要素を活かした医療用クロスアテンション・ビジョン・ランゲージ・モデル(医療用X-VL)を提案する。
医用X-VLモデルは,医療領域における自己教師型ユニモーダルモデルと融合エンコーダをブリッジする融合エンコーダ,モーメント蒸留,医療報告における文のコントラスト学習,および文の類似性調整型ハードネガティブマイニングを基礎としている。
我々は、ゼロショット分類からゼロショット誤り訂正まで、AIのさまざまなゼロショットタスクを可能にする実験を行った。
我々のモデルは2つの異なる医用画像データベースにおいて最先端のモデルよりも優れており、人間の誤りを監視するための監視aiモデルの新たな臨床利用が示唆されている。
本手法は,臨床で頻繁に発生するデータ制限設定において特に成功し,医療領域に広く適用できる可能性が示唆された。
関連論文リスト
- The Era of Foundation Models in Medical Imaging is Approaching : A Scoping Review of the Clinical Value of Large-Scale Generative AI Applications in Radiology [0.0]
放射線技師の不足に起因する社会問題は激化しており、人工知能は潜在的な解決策として強調されている。
最近出現する大規模生成AIは、大規模言語モデル(LLM)からマルチモーダルモデルへと拡張されている。
このスコーピングレビューは、大規模生成型AIアプリケーションの臨床的価値に関する既存の文献を体系的に整理する。
論文 参考訳(メタデータ) (2024-09-03T00:48:50Z) - Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning [33.9544297423474]
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までについて述べる。
以上の結果から,患者中心型AIがX線の臨床・解釈に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-05-02T16:59:10Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文 参考訳(メタデータ) (2024-01-12T02:43:58Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。