論文の概要: Text-guided Foundation Model Adaptation for Pathological Image
Classification
- arxiv url: http://arxiv.org/abs/2307.14901v1
- Date: Thu, 27 Jul 2023 14:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:22:44.040827
- Title: Text-guided Foundation Model Adaptation for Pathological Image
Classification
- Title(参考訳): 病理画像分類のためのテキスト誘導基礎モデル適応
- Authors: Yunkun Zhang, Jin Gao, Mu Zhou, Xiaosong Wang, Yu Qiao, Shaoting
Zhang, Dequan Wang
- Abstract要約: 本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
- 参考スコア(独自算出の注目度): 40.45252665455015
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent surge of foundation models in computer vision and natural language
processing opens up perspectives in utilizing multi-modal clinical data to
train large models with strong generalizability. Yet pathological image
datasets often lack biomedical text annotation and enrichment. Guiding
data-efficient image diagnosis from the use of biomedical text knowledge
becomes a substantial interest. In this paper, we propose to Connect Image and
Text Embeddings (CITE) to enhance pathological image classification. CITE
injects text insights gained from language models pre-trained with a broad
range of biomedical texts, leading to adapt foundation models towards
pathological image understanding. Through extensive experiments on the
PatchGastric stomach tumor pathological image dataset, we demonstrate that CITE
achieves leading performance compared with various baselines especially when
training data is scarce. CITE offers insights into leveraging in-domain text
knowledge to reinforce data-efficient pathological image classification. Code
is available at https://github.com/Yunkun-Zhang/CITE.
- Abstract(参考訳): 近年のコンピュータビジョンと自然言語処理の基礎モデルの増加は、多モード臨床データを利用して、強力な一般化性を持つ大規模モデルを訓練する視点を開きつつある。
しかし、病理画像データセットには、しばしば生物医学的なテキストアノテーションやエンリッチメントが欠けている。
データ効率のよい画像診断をバイオメディカルテキスト知識の使用から導くことは大きな関心事となる。
本稿では,病的画像分類を改善するために,画像とテキストの埋め込み(CITE)を接続することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
PatchGastric胃腫瘍画像データセットの広範な実験を通じて、CITEはトレーニングデータが少ない場合に、各種ベースラインと比較して先行的な性能を発揮することを示した。
CITEは、ドメイン内のテキスト知識を活用して、データ効率の良い病理画像分類を強化する洞察を提供する。
コードはhttps://github.com/Yunkun-Zhang/CITEで入手できる。
関連論文リスト
- Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。
我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。
モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2025-02-18T15:30:48Z) - GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。
DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文 参考訳(メタデータ) (2024-12-23T03:49:29Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。
モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文 参考訳(メタデータ) (2024-08-07T07:12:52Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。