論文の概要: Towards a Visual-Language Foundation Model for Computational Pathology
- arxiv url: http://arxiv.org/abs/2307.12914v2
- Date: Tue, 25 Jul 2023 17:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:43:35.035153
- Title: Towards a Visual-Language Foundation Model for Computational Pathology
- Title(参考訳): 計算病理学のための視覚言語基礎モデルに向けて
- Authors: Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Ivy
Liang, Tong Ding, Guillaume Jaume, Igor Odintsov, Andrew Zhang, Long Phi Le,
Georg Gerber, Anil V Parwani, Faisal Mahmood
- Abstract要約: 病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 5.72536252929528
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The accelerated adoption of digital pathology and advances in deep learning
have enabled the development of powerful models for various pathology tasks
across a diverse array of diseases and patient cohorts. However, model training
is often difficult due to label scarcity in the medical domain and the model's
usage is limited by the specific task and disease for which it is trained.
Additionally, most models in histopathology leverage only image data, a stark
contrast to how humans teach each other and reason about histopathologic
entities. We introduce CONtrastive learning from Captions for Histopathology
(CONCH), a visual-language foundation model developed using diverse sources of
histopathology images, biomedical text, and notably over 1.17 million
image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13
diverse benchmarks, CONCH can be transferred to a wide range of downstream
tasks involving either or both histopathology images and text, achieving
state-of-the-art performance on histology image classification, segmentation,
captioning, text-to-image and image-to-text retrieval. CONCH represents a
substantial leap over concurrent visual-language pretrained systems for
histopathology, with the potential to directly facilitate a wide array of
machine learning-based workflows requiring minimal or no further supervised
fine-tuning.
- Abstract(参考訳): デジタル病理学の急速な普及とディープラーニングの進歩により、様々な疾患や患者コホートにまたがる様々な病理タスクの強力なモデルの開発が可能となった。
しかし、医療領域におけるラベル不足のため、モデルのトレーニングは困難であり、モデルの使用は、訓練される特定のタスクや病気によって制限される。
さらに、ほとんどの病理学モデルは画像データのみを利用しており、ヒトが互いに教え合う方法と、病理学の実体について推論する手法とは対照的である。
本稿では, 様々な組織像, バイオメディカルテキスト, タスク非依存の事前学習による117万枚以上の画像キャプチャーペアを用いた視覚言語基盤モデルであるContrastive Learning from Captions for Histopathology (CONCH)を紹介する。
13の多様なベンチマークで評価されたconchは、病理組織像とテキストの両方を含む幅広い下流タスクに転送でき、組織像の分類、セグメンテーション、キャプション、テキスト対テキスト検索、画像対テキスト検索の最先端のパフォーマンスを達成している。
CONCHは、病理学のための並行的な視覚言語事前訓練システムに対する大きな飛躍であり、最小またはそれ以上の教師付き微調整を必要とする機械学習ベースのワークフローを直接的に促進する可能性がある。
関連論文リスト
- In-context learning enables multimodal large language models to classify
cancer pathology images [0.7085801706650957]
言語処理では、コンテキスト内学習(in-context learning)は、モデルがプロンプト内で学習し、パラメータ更新の必要性を回避できる代替手段を提供する。
そこで本研究では,GPT-4V(Generative Pretrained Transformer 4 with Vision (GPT-4V)) を用いたがん画像処理モデルの評価を行った。
この結果から,テキスト内学習は特定のタスクで訓練された特殊なニューラルネットワークに適合したり,あるいは性能を向上するのに十分であり,最小限のサンプルしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-03-12T08:34:34Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - PathoDuet: Foundation Models for Pathological Slide Analysis of H&E and
IHC Stains [2.77305170426095]
PathoDuetは,病理組織像の事前学習モデルであり,病理組織学における新たな自己教師型学習フレームワークである。
このフレームワークは、新しく導入されたプリテキストトークンと後続のタスクライザーによって特徴付けられ、画像間の特定の関係を明示的に活用する。
これに基づいて、ヘマトキシリンとエオシンの画像上でモデルを事前訓練するために、クロススケール位置決めとクロスステイン転送という2つのプレテキストタスクが設計された。
論文 参考訳(メタデータ) (2023-12-15T15:45:52Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
本稿では,VLSMの2次元医用画像への変換学習に関する最初のベンチマーク研究について述べる。
以上の結果から,VLSMは自然画像とテキストのペアで訓練され,ゼロショット設定で医療領域に合理的に移行することが示唆された。
しかし、微調整中の言語プロンプトのさらなる利点は限られているかもしれない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。