論文の概要: A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision
- arxiv url: http://arxiv.org/abs/2308.07898v1
- Date: Tue, 15 Aug 2023 17:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 11:53:00.153523
- Title: A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision
- Title(参考訳): 網膜の基礎言語画像モデル(flair) : テキスト監督における専門知識の符号化
- Authors: Julio Silva-Rodriguez, Hadi Chakor, Riadh Kobbi, Jose Dolz and Ismail
Ben Ayed
- Abstract要約: 広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
- 参考スコア(独自算出の注目度): 17.583536041845402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision-language models are currently transforming computer vision,
and are on the rise in medical imaging fueled by their very promising
generalization capabilities. However, the initial attempts to transfer this new
paradigm to medical imaging have shown less impressive performances than those
observed in other domains, due to the significant domain shift and the complex,
expert domain knowledge inherent to medical-imaging tasks. Motivated by the
need for domain-expert foundation models, we present FLAIR, a pre-trained
vision-language model for universal retinal fundus image understanding. To this
end, we compiled 37 open-access, mostly categorical fundus imaging datasets
from various sources, with up to 97 different target conditions and 284,660
images. We integrate the expert's domain knowledge in the form of descriptive
textual prompts, during both pre-training and zero-shot inference, enhancing
the less-informative categorical supervision of the data. Such a textual
expert's knowledge, which we compiled from the relevant clinical literature and
community standards, describes the fine-grained features of the pathologies as
well as the hierarchies and dependencies between them. We report comprehensive
evaluations, which illustrate the benefit of integrating expert knowledge and
the strong generalization capabilities of FLAIR under difficult scenarios with
domain shifts or unseen categories. When adapted with a lightweight linear
probe, FLAIR outperforms fully-trained, dataset-focused models, more so in the
few-shot regimes. Interestingly, FLAIR outperforms by a large margin more
generalist, larger-scale image-language models, which emphasizes the potential
of embedding experts' domain knowledge and the limitations of generalist models
in medical imaging.
- Abstract(参考訳): ファンデーションビジョン言語モデルは、現在コンピュータビジョンを変容させており、非常に有望な一般化能力によって医療画像の進歩が加速している。
しかし、この新たなパラダイムを医用画像に移す試みは、重要なドメインシフトと医療画像タスクに固有の複雑な専門的ドメイン知識のために、他のドメインで見られるものよりも印象的なパフォーマンスが低い。
ドメインエキスパート基盤モデルの必要性に感銘を受けて,広義網膜眼底画像理解のための学習済み視覚言語モデルFLAIRを提案する。
この目的のために、37のオープンアクセスデータセットをコンパイルし、主に様々なソースから、97の異なる目標条件と284,660の画像を収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合し、データの非形式的な分類的監督を強化する。
このような文献的専門家の知識は、関連する臨床文献やコミュニティ標準からまとめられ、病理の細かな特徴とそれらの間の階層や依存関係を記述している。
専門知識とFLAIRの強力な一般化能力を統合することのメリットを、ドメインシフトや見当たらないカテゴリの難しいシナリオ下での総合的な評価を報告する。
軽量リニアプローブに適応すると、FLAIRは、数発のレギュレーションにおいて、完全にトレーニングされたデータセット中心のモデルよりも優れています。
FLAIRは、専門家のドメイン知識と医療画像におけるジェネラリストモデルの限界を埋め込む可能性を強調する、より大規模な画像言語モデルよりも優れている。
関連論文リスト
- MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Domain Generalization for Medical Imaging Classification with
Linear-Dependency Regularization [59.5104563755095]
本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,シンプルだが効果的なアプローチを提案する。
医用画像の領域変数がある程度コンパクトであることに感銘を受けて,変分符号化による代表的特徴空間の学習を提案する。
論文 参考訳(メタデータ) (2020-09-27T12:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。