論文の概要: A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision
- arxiv url: http://arxiv.org/abs/2308.07898v1
- Date: Tue, 15 Aug 2023 17:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 11:53:00.153523
- Title: A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision
- Title(参考訳): 網膜の基礎言語画像モデル(flair) : テキスト監督における専門知識の符号化
- Authors: Julio Silva-Rodriguez, Hadi Chakor, Riadh Kobbi, Jose Dolz and Ismail
Ben Ayed
- Abstract要約: 広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
- 参考スコア(独自算出の注目度): 17.583536041845402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation vision-language models are currently transforming computer vision,
and are on the rise in medical imaging fueled by their very promising
generalization capabilities. However, the initial attempts to transfer this new
paradigm to medical imaging have shown less impressive performances than those
observed in other domains, due to the significant domain shift and the complex,
expert domain knowledge inherent to medical-imaging tasks. Motivated by the
need for domain-expert foundation models, we present FLAIR, a pre-trained
vision-language model for universal retinal fundus image understanding. To this
end, we compiled 37 open-access, mostly categorical fundus imaging datasets
from various sources, with up to 97 different target conditions and 284,660
images. We integrate the expert's domain knowledge in the form of descriptive
textual prompts, during both pre-training and zero-shot inference, enhancing
the less-informative categorical supervision of the data. Such a textual
expert's knowledge, which we compiled from the relevant clinical literature and
community standards, describes the fine-grained features of the pathologies as
well as the hierarchies and dependencies between them. We report comprehensive
evaluations, which illustrate the benefit of integrating expert knowledge and
the strong generalization capabilities of FLAIR under difficult scenarios with
domain shifts or unseen categories. When adapted with a lightweight linear
probe, FLAIR outperforms fully-trained, dataset-focused models, more so in the
few-shot regimes. Interestingly, FLAIR outperforms by a large margin more
generalist, larger-scale image-language models, which emphasizes the potential
of embedding experts' domain knowledge and the limitations of generalist models
in medical imaging.
- Abstract(参考訳): ファンデーションビジョン言語モデルは、現在コンピュータビジョンを変容させており、非常に有望な一般化能力によって医療画像の進歩が加速している。
しかし、この新たなパラダイムを医用画像に移す試みは、重要なドメインシフトと医療画像タスクに固有の複雑な専門的ドメイン知識のために、他のドメインで見られるものよりも印象的なパフォーマンスが低い。
ドメインエキスパート基盤モデルの必要性に感銘を受けて,広義網膜眼底画像理解のための学習済み視覚言語モデルFLAIRを提案する。
この目的のために、37のオープンアクセスデータセットをコンパイルし、主に様々なソースから、97の異なる目標条件と284,660の画像を収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合し、データの非形式的な分類的監督を強化する。
このような文献的専門家の知識は、関連する臨床文献やコミュニティ標準からまとめられ、病理の細かな特徴とそれらの間の階層や依存関係を記述している。
専門知識とFLAIRの強力な一般化能力を統合することのメリットを、ドメインシフトや見当たらないカテゴリの難しいシナリオ下での総合的な評価を報告する。
軽量リニアプローブに適応すると、FLAIRは、数発のレギュレーションにおいて、完全にトレーニングされたデータセット中心のモデルよりも優れています。
FLAIRは、専門家のドメイン知識と医療画像におけるジェネラリストモデルの限界を埋め込む可能性を強調する、より大規模な画像言語モデルよりも優れている。
関連論文リスト
- KA$^2$ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation [5.807887214293438]
本稿では,多元的基礎モデルを学習し,複数のエキスパートモデルの協調的な目標に対処することを目的としたアダプティブ・アマルガメーション・ナレッジ・フレームワークを提案する。
特に、まず、各タスクに対してnnUNetベースのエキスパートモデルをトレーニングし、トレーニング済みのSwinUNTERをターゲット基盤モデルとして再利用する。
隠蔽層内の階層的アテンション機構は、すべての専門家の隠蔽層の特徴知識にターゲットモデルの適応的なマージを実現するように設計されている。
論文 参考訳(メタデータ) (2024-10-28T14:49:17Z) - LoRKD: Low-Rank Knowledge Decomposition for Medical Foundation Models [59.961172635689664]
知識分解」は、特定の医療課題のパフォーマンス向上を目的としている。
我々はLow-Rank Knowledge Decomposition(LoRKD)という新しいフレームワークを提案する。
LoRKDは、低ランクのエキスパートモジュールと効率的な知識分離畳み込みを組み込むことで、グラデーションを異なるタスクから明確に分離する。
論文 参考訳(メタデータ) (2024-09-29T03:56:21Z) - UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling [26.087595095138305]
UrFoundは、マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルである。
約180万枚の網膜画像のトレーニングにより、UrFoundは最大1.6万枚の未表示画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-10T19:31:29Z) - A Textbook Remedy for Domain Shifts: Knowledge Priors for Medical Image Analysis [48.84443450990355]
ディープネットワークは、医学的なスキャンに適用すると、例外のない状況で失敗することが多いため、自然画像の解析において広く成功している。
胸部X線や皮膚病変画像の文脈において、異なる病院から採取したデータや、性別、人種などの人口統計学的変数によって構築されたデータなど、ドメインシフトに対するモデル感度に焦点をあてる。
医学教育からインスピレーションを得て,自然言語で伝達される明示的な医学知識を基盤としたディープネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:55:02Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。