論文の概要: Alternating Cross-attention Vision-Language Model for Efficient Learning
with Medical Image and Report without Curation
- arxiv url: http://arxiv.org/abs/2208.05140v1
- Date: Wed, 10 Aug 2022 04:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:26:00.091531
- Title: Alternating Cross-attention Vision-Language Model for Efficient Learning
with Medical Image and Report without Curation
- Title(参考訳): 医用画像による効果的な学習の代替的横断的視覚言語モデルとカリキュラムなしでの報告
- Authors: Sangjoon Park, Eun Sun Lee, Jeong Eun Lee, and Jong Chul Ye
- Abstract要約: 本稿では,医療領域における視覚言語事前学習のためのモデルMAX-VLを紹介する。
事前学習したMAX-VLモデルは、様々な視覚言語タスクにおいて、現在の最先端のビジョンモデルよりも優れていることを実験的に実証した。
- 参考スコア(独自算出の注目度): 33.3067403671401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in vision-language pre-training have demonstrated astounding
performances in diverse vision-language tasks, shedding a light on the
long-standing problems of a comprehensive understanding of both visual and
textual concepts in artificial intelligence research. However, there has been
limited success in the application of vision-language pre-training in the
medical domain, as the current vision-language models and learning strategies
for photographic images and captions are not optimal to process the medical
data which are usually insufficient in the amount and the diversity, which
impedes successful learning of joint vision-language concepts. In this study,
we introduce MAX-VL, a model tailored for efficient vision-language
pre-training in the medical domain. We experimentally demonstrated that the
pre-trained MAX-VL model outperforms the current state-of-the-art vision
language models in various vision-language tasks. We also suggested the
clinical utility for the diagnosis of newly emerging diseases and human error
detection as well as showed the widespread applicability of the model in
different domain data.
- Abstract(参考訳): 視覚言語プレトレーニングの最近の進歩は、様々な視覚言語タスクにおける驚くべきパフォーマンスを示し、人工知能研究における視覚的およびテキスト的概念の包括的理解という長年の問題に光を当てている。
しかし、現在の視覚言語モデルや写真画像やキャプションの学習戦略は、共同視覚言語の概念の学習に支障をきたすような量や多様性に乏しい医療データを処理するのに最適ではないため、医学領域での視覚言語事前学習の適用は限定的に成功している。
本研究では,医療領域における視覚言語事前学習のためのモデルMAX-VLを紹介する。
事前学習したMAX-VLモデルは、様々な視覚言語タスクにおいて、現在の最先端の視覚言語モデルよりも優れていることを実験的に実証した。
また,新たに出現した疾患の診断と人為的エラー検出のための臨床的有用性を提案し,異なるドメインデータにおけるモデルの適用可能性を示した。
関連論文リスト
- RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision [44.00149519249467]
言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
論文 参考訳(メタデータ) (2024-01-19T17:02:17Z) - Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文 参考訳(メタデータ) (2024-01-12T02:43:58Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Democratizing Artificial Intelligence in Healthcare: A Study of Model
Development Across Two Institutions Incorporating Transfer Learning [8.043077408518826]
トランスファーラーニング(TL)は、非常に小さなローカルデータセットを使用して、ある機関から完全に訓練されたモデルを他の機関によって微調整することを可能にする。
本稿では,基本的なユースケースを対象としたAIモデル開発におけるTLの課題,方法論,メリットについて述べる。
論文 参考訳(メタデータ) (2020-09-25T21:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。