論文の概要: Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation
- arxiv url: http://arxiv.org/abs/2504.18856v1
- Date: Sat, 26 Apr 2025 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.019626
- Title: Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation
- Title(参考訳): テキスト誘導視覚表現を用いた多解像病理-言語事前学習モデル
- Authors: Shahad Albastaki, Anabia Sohail, Iyyakutti Iyappan Ganapathi, Basit Alawode, Asim Khan, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood,
- Abstract要約: 本稿では,WSI(Whole Slide Images)を利用して複数解像度でヒストロジパッチを抽出する新しいマルチレゾリューションパラダイムを提案する。
複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。
本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
- 参考スコア(独自算出の注目度): 35.50570174431677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Computational Pathology (CPath), the introduction of Vision-Language Models (VLMs) has opened new avenues for research, focusing primarily on aligning image-text pairs at a single magnification level. However, this approach might not be sufficient for tasks like cancer subtype classification, tissue phenotyping, and survival analysis due to the limited level of detail that a single-resolution image can provide. Addressing this, we propose a novel multi-resolution paradigm leveraging Whole Slide Images (WSIs) to extract histology patches at multiple resolutions and generate corresponding textual descriptions through advanced CPath VLM. We introduce visual-textual alignment at multiple resolutions as well as cross-resolution alignment to establish more effective text-guided visual representations. Cross-resolution alignment using a multimodal encoder enhances the model's ability to capture context from multiple resolutions in histology images. Our model aims to capture a broader range of information, supported by novel loss functions, enriches feature representation, improves discriminative ability, and enhances generalization across different resolutions. Pre-trained on a comprehensive TCGA dataset with 34 million image-language pairs at various resolutions, our fine-tuned model outperforms state-of-the-art (SOTA) counterparts across multiple datasets and tasks, demonstrating its effectiveness in CPath. The code is available on GitHub at: https://github.com/BasitAlawode/MR-PLIP
- Abstract(参考訳): 計算病理学(CPath)において、視覚言語モデル(VLM)の導入は、主に画像とテキストのペアを1つの倍率レベルで整列することに焦点を当て、研究のための新たな道を開いた。
しかし、このアプローチは、がんのサブタイプ分類、組織表現型分類、生存分析のようなタスクには十分ではないかもしれない。
そこで本研究では,WSI(Whole Slide Images)を利用して複数解像度の組織像を抽出し,高度なCPath VLMを用いて対応するテキスト記述を生成する手法を提案する。
複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。
マルチモーダルエンコーダを用いたクロスレゾリューションアライメントは、ヒストロジー画像の複数の解像度からコンテキストをキャプチャするモデルの能力を向上する。
本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
さまざまな解像度で3400万のイメージ言語ペアを持つ総合的なTCGAデータセットで事前トレーニングされた当社の微調整モデルは、複数のデータセットやタスクにわたる最先端(SOTA)モデルよりも優れており、CPathにおけるその有効性を示している。
コードはGitHubで入手できる。 https://github.com/BasitAlawode/MR-PLIP
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。