論文の概要: RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision
- arxiv url: http://arxiv.org/abs/2401.10815v1
- Date: Fri, 19 Jan 2024 17:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:08:21.913906
- Title: RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text
Supervision
- Title(参考訳): RAD-DINO:テキストスーパービジョンを超えたスケーラブルな医療画像エンコーダ
- Authors: Fernando P\'erez-Garc\'ia, Harshita Sharma, Sam Bond-Taylor, Kenza
Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C.
Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel
Codella, Stephanie L. Hyland, Javier Alvarez-Valle, Ozan Oktay
- Abstract要約: 言語による事前学習は、画像から意味論的に意味のある特徴を抽出する貴重な方法であることが証明されている。
生体画像エンコーダRAD-DINOについて検討した。
- 参考スコア(独自算出の注目度): 44.00149519249467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-supervised pre-training has proven to be a valuable method for
extracting semantically meaningful features from images, serving as a
foundational element in multimodal systems within the computer vision and
medical imaging domains. However, resulting features are limited by the
information contained within the text. This is particularly problematic in
medical imaging, where radiologists' written findings focus on specific
observations; a challenge compounded by the scarcity of paired imaging-text
data due to concerns over leakage of personal health information. In this work,
we fundamentally challenge the prevailing reliance on language supervision for
learning general purpose biomedical imaging encoders. We introduce RAD-DINO, a
biomedical image encoder pre-trained solely on unimodal biomedical imaging data
that obtains similar or greater performance than state-of-the-art biomedical
language supervised models on a diverse range of benchmarks. Specifically, the
quality of learned representations is evaluated on standard imaging tasks
(classification and semantic segmentation), and a vision-language alignment
task (text report generation from images). To further demonstrate the drawback
of language supervision, we show that features from RAD-DINO correlate with
other medical records (e.g., sex or age) better than language-supervised
models, which are generally not mentioned in radiology reports. Finally, we
conduct a series of ablations determining the factors in RAD-DINO's
performance; notably, we observe that RAD-DINO's downstream performance scales
well with the quantity and diversity of training data, demonstrating that
image-only supervision is a scalable approach for training a foundational
biomedical image encoder.
- Abstract(参考訳): 言語教師付き事前学習は、画像から意味的に意味のある特徴を抽出し、コンピュータビジョンおよび医療画像領域におけるマルチモーダルシステムの基本要素として有用であることが証明されている。
しかし、結果として得られる特徴はテキストに含まれる情報によって制限される。
これは医学画像学において特に問題であり、放射線技師の発見は特定の観察に焦点を当てており、個人の健康情報の漏洩に関する懸念から、ペア画像テキストデータの不足によって複雑化されている。
本研究は,汎用バイオメディカルイメージングエンコーダを学習するための言語指導の要点に根本的に挑戦する。
rad-dinoは単調なバイオメディカルイメージングデータのみに基づいて事前トレーニングされたバイオメディカル画像エンコーダで,最先端のバイオメディカル言語教師モデルと同等あるいはそれ以上のパフォーマンスを,さまざまなベンチマークで実現する。
具体的には、標準撮像タスク(分類と意味セグメンテーション)と視覚言語アライメントタスク(画像からのテキストレポート生成)で学習表現の品質を評価する。
言語指導の欠点をさらに示すために,RAD-DINOの特徴と他の医療記録(性別や年齢など)との相関が,一般的にはラジオロジー報告に言及されていない言語監督モデルよりも優れていることを示す。
最後に, RAD-DINOの下流性能はトレーニングデータの量や多様性とよく一致し, 基礎的なバイオメディカル画像エンコーダをトレーニングするための, 画像のみの監督がスケーラブルなアプローチであることを実証する。
関連論文リスト
- Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation [27.05259342502574]
本稿では,放射線学に適した視覚言語基盤モデルRadFoundを紹介する。
8100万枚以上の画像と25万枚の画像テキストのペアからなる、最も広範なデータセットでトレーニングされている。
専門家レベルのマルチモーダル認識と生成能力を確立するために、RadFoundは拡張された視覚エンコーダを導入した。
論文 参考訳(メタデータ) (2024-09-24T15:31:49Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Unified Medical Image Pre-training in Language-Guided Common Semantic Space [39.61770813855078]
我々はUnified Medical Image Pre-Trainingフレームワーク(UniMedI)を提案する。
UniMedIは、診断レポートを一般的な意味空間として使用し、医療画像の多様なモダリティの統一表現を作成する。
10種類のデータセットにまたがる2次元画像と3次元画像の性能評価を行った。
論文 参考訳(メタデータ) (2023-11-24T22:01:12Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Representative Image Feature Extraction via Contrastive Learning
Pretraining for Chest X-ray Report Generation [19.69560434388278]
医療報告生成の目標は、画像の発見を正確に把握し、記述することである。
以前の作業では、さまざまなドメインで大規模なデータセットを使用して、視覚的エンコーディングニューラルネットワークを事前トレーニングしていた。
本稿では,視覚的エンコーダの事前学習に対照的な学習手法を用い,メタ情報を必要としないフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-04T12:07:19Z) - Self-supervised Multi-modal Training from Uncurated Image and Reports
Enables Zero-shot Oversight Artificial Intelligence in Radiology [31.045221580446963]
医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。
我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。
提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T04:35:58Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。