Fugu-MT 論文翻訳(概要): Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images

論文の概要: Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images

arxiv url: http://arxiv.org/abs/2503.10731v1
Date: Thu, 13 Mar 2025 12:18:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.001525
Title: Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images
Title（参考訳）: 病理画像におけるゼロショット学習のための視覚言語埋め込みの活用
Authors: Md Mamunur Rahaman, Ewan K. A. Millar, Erik Meijering,
Abstract要約: ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
参考スコア（独自算出の注目度）: 7.048241543461529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot learning holds tremendous potential for histopathology image analysis by enabling models to generalize to unseen classes without extensive labeled data. Recent advancements in vision-language models (VLMs) have expanded the capabilities of ZSL, allowing models to perform tasks without task-specific fine-tuning. However, applying VLMs to histopathology presents considerable challenges due to the complexity of histopathological imagery and the nuanced nature of diagnostic tasks. In this paper, we propose a novel framework called Multi-Resolution Prompt-guided Hybrid Embedding (MR-PHE) to address these challenges in zero-shot histopathology image classification. MR-PHE leverages multiresolution patch extraction to mimic the diagnostic workflow of pathologists, capturing both fine-grained cellular details and broader tissue structures critical for accurate diagnosis. We introduce a hybrid embedding strategy that integrates global image embeddings with weighted patch embeddings, effectively combining local and global contextual information. Additionally, we develop a comprehensive prompt generation and selection framework, enriching class descriptions with domain-specific synonyms and clinically relevant features to enhance semantic understanding. A similarity-based patch weighting mechanism assigns attention-like weights to patches based on their relevance to class embeddings, emphasizing diagnostically important regions during classification. Our approach utilizes pretrained VLM, CONCH for ZSL without requiring domain-specific fine-tuning, offering scalability and reducing dependence on large annotated datasets. Experimental results demonstrate that MR-PHE not only significantly improves zero-shot classification performance on histopathology datasets but also often surpasses fully supervised models.
Abstract（参考訳）: ゼロショット学習は、広範囲なラベル付きデータなしで、モデルが目に見えないクラスに一般化できるようにすることで、病理画像解析に大きな可能性を秘めている。視覚言語モデル(VLM)の最近の進歩により、ZSLの能力が拡張され、タスク固有の微調整なしでモデルがタスクを実行できるようになった。しかし, 病理組織学にVLMを適用することは, 病理像の複雑化と診断タスクの微妙な性質に起因して, かなりの課題を生んでいる。本稿では,ゼロショット組織像分類におけるこれらの課題に対処するため,MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。 MR-PHEは、マルチレゾリューションパッチ抽出を利用して、病理医の診断ワークフローを模倣し、微細な細胞の詳細と、正確な診断に不可欠なより広い組織構造の両方をキャプチャする。我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合し,局所的およびグローバルな文脈情報を効果的に組み合わせたハイブリッドな埋め込み戦略を導入する。さらに、ドメイン固有の同義語と臨床的に関連性のある特徴でクラス記述を充実させ、セマンティックな理解を深める包括的プロンプト生成と選択の枠組みを開発する。類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、注意のような重み付けをパッチに割り当て、分類中の診断上重要な領域を強調する。提案手法では、ドメイン固有の微調整を必要とせず、事前訓練されたVLM, CONCH for ZSLを利用し、拡張性を提供し、大規模な注釈付きデータセットへの依存を減らす。実験結果から,MR-PHEは病理組織学的データセットのゼロショット分類性能を著しく向上するだけでなく,完全教師付きモデルを上回ることが多いことが示唆された。

関連論文リスト

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。 CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文参考訳（メタデータ） (2025-12-15T10:22:43Z)
Zero-shot segmentation of skin tumors in whole-slide images with vision-language foundation models [1.2488173903877113]
我々は、全スライディング画像(ZEUS)のためのゼロショット視覚言語セグメンテーションパイプラインを導入する。 ZEUSは、ギガピクセル全スライド画像に高解像度の腫瘍マスクを生成する。 2つの社内データセットで競合性能を示す。
論文参考訳（メタデータ） (2025-11-24T10:50:30Z)
Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文参考訳（メタデータ） (2025-08-21T21:05:44Z)
Benchmarking histopathology foundation models in a multi-center dataset for skin cancer subtyping [1.927195358774599]
大規模なドメイン内データセットの事前トレーニングは、履歴病理基盤モデル(FM)にタスクに依存しないデータ表現を学習する能力を与える。計算病理学では、スライド全体の自動解析には、スライドのギガピクセルスケールのため、複数のインスタンス学習(MIL)フレームワークが必要である。本研究は,MIL分類フレームワーク内のパッチレベルの特徴抽出器として,病理組織学的FMを評価するための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-06-23T14:12:16Z)
Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
CMSwinKANは、病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルである。臨床所見から導かれるソフト投票機構を導入し,パッチレベルの予測をスライド画像全体の分類にシームレスにブリッジする。その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文参考訳（メタデータ） (2025-04-18T15:39:46Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。本手法の有効性を医用撮像皮膚データセットに示し, 生成した画像から生成品質が向上し, 微調整された安定拡散に対するプロンプトとの整合性が向上することを示した。
論文参考訳（メタデータ） (2025-03-20T01:51:05Z)
From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文参考訳（メタデータ） (2025-03-14T20:15:04Z)
MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [52.106879463828044]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文参考訳（メタデータ） (2025-03-01T07:02:30Z)
Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文参考訳（メタデータ） (2025-02-18T15:30:48Z)
Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。 CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文参考訳（メタデータ） (2024-08-28T13:53:27Z)
OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文参考訳（メタデータ） (2024-04-18T02:59:48Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文参考訳（メタデータ） (2024-02-09T05:05:28Z)
Active Learning Enhances Classification of Histopathology Whole Slide Images with Attention-based Multiple Instance Learning [48.02011627390706]
我々は、注意に基づくMILをトレーニングし、データセット内の各画像に対する信頼度を算出し、専門家のアノテーションに対して最も不確実なWSIを選択する。新たな注意誘導損失により、各クラスにアノテートされた領域がほとんどない、トレーニングされたモデルの精度が向上する。将来的には、病理組織学における癌分類の臨床的に関連する文脈において、MILモデルのトレーニングに重要な貢献をする可能性がある。
論文参考訳（メタデータ） (2023-03-02T15:18:58Z)
Histopathology DatasetGAN: Synthesizing Large-Resolution Histopathology Datasets [0.0]
病理組織学的データセットGAN(HDGAN)は、画像の生成と分割のためのフレームワークであり、大きな解像度の病理組織像によく対応している。生成したバックボーンの更新,ジェネレータからの遅延特徴の選択的抽出,メモリマップされた配列への切り替えなど,オリジナルのフレームワークからいくつかの適応を行う。血栓性微小血管症における高分解能タイルデータセット上でHDGANを評価し,高分解能画像アノテーション生成タスクにおいて高い性能を示した。
論文参考訳（メタデータ） (2022-07-06T14:33:50Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)
Data Efficient and Weakly Supervised Computational Pathology on Whole Slide Images [4.001273534300757]
計算病理学は、客観的診断、治療反応予測、臨床関連性の新たな形態学的特徴の同定を可能にする可能性がある。ディープラーニングベースの計算病理学アプローチでは、完全に教師された設定でギガピクセル全体のスライド画像(WSI)のマニュアルアノテーションを必要とするか、弱い教師付き設定でスライドレベルのラベルを持つ何千ものWSIを必要とする。ここでは、クラスタリングに制約のある複数のインスタンス学習について紹介する。
論文参考訳（メタデータ） (2020-04-20T23:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。