論文の概要: WISE-FUSE: Efficient Whole Slide Image Encoding via Coarse-to-Fine Patch Selection with VLM and LLM Knowledge Fusion
- arxiv url: http://arxiv.org/abs/2508.14537v1
- Date: Wed, 20 Aug 2025 08:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.39887
- Title: WISE-FUSE: Efficient Whole Slide Image Encoding via Coarse-to-Fine Patch Selection with VLM and LLM Knowledge Fusion
- Title(参考訳): WISE-FUSE: VLM と LLM の知識融合による粗いパッチ選択による効率的な全スライド画像符号化
- Authors: Yonghan Shin, SeungKyu Kim, Won-Ki Jeong,
- Abstract要約: 計算病理学(CPath)における全スライド画像(WSI)は、ギガピクセルスケールのために大きな計算課題となる。
本稿では,病理領域の視覚言語モデルと大規模言語モデルを活用した適応型WSI符号化フレームワークWISE-FUSEを提案する。
WISE-FUSEは、WSIエンコーディング時間を3倍に削減し、また、徹底的なパッチ処理と同等以上の診断性能を実現している。
- 参考スコア(独自算出の注目度): 3.677055050765245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole slide images (WSIs) in computational pathology (CPath) pose a major computational challenge due to their gigapixel scale, often requiring the processing of tens to hundreds of thousands of high-resolution patches per slide. This results in prohibitive encoding costs, with preprocessing and training times extending to days or even weeks-making WSI encoding the most significant bottleneck in real-world deployment. In this work, we propose WISE-FUSE, an adaptive WSI encoding framework that leverages pathology-domain vision-language models and large language models to address this challenge by selectively processing diagnostically relevant regions. WISE-FUSE first computes similarity scores between low-resolution patches and class-specific textual descriptions using a knowledge distillation mechanism that preserves fine-grained diagnostic features. Based on these similarity scores, we select a small subset of informative regions for the target task, which quickly eliminates irrelevant patches at the coarse level. The corresponding high-resolution patches are then selectively encoded and fused with textual embeddings to reinforce diagnostic context. Extensive experiments demonstrate that WISE-FUSE reduces WSI encoding time by over threefold while achieving diagnostic performance comparable to or surpassing that of exhaustive patch processing, offering a scalable and practical solution for CPath.
- Abstract(参考訳): 計算病理学(CPath)における全スライド画像(WSI)は、そのギガピクセルスケールのために大きな計算課題を生じさせ、多くの場合、スライド毎に数十から数十万の高解像度パッチを処理する必要がある。
これにより、前処理とトレーニング時間が数日、あるいは数週間にわたって延長され、WSIは現実世界のデプロイメントにおいて最も重要なボトルネックをエンコードする。
本研究では,病理領域の視覚言語モデルと大規模言語モデルを活用する適応型WSI符号化フレームワークWISE-FUSEを提案する。
WISE-FUSEは、まず低解像度パッチとクラス固有のテキスト記述の類似度スコアを、きめ細かい診断特徴を保存する知識蒸留機構を用いて計算する。
これらの類似度スコアに基づいて、ターゲットタスクに対する情報領域の小さなサブセットを選択し、粗いレベルでの無関係なパッチを迅速に除去する。
対応する高解像度パッチは選択的に符号化され、テキスト埋め込みで融合され、診断コンテキストが強化される。
WISE-FUSEがWSIエンコーディング時間を3倍に削減し、CPathのスケーラブルで実用的なソリューションを提供しながら、徹底的なパッチ処理に匹敵する、あるいはそれ以上の診断性能を実現していることを示す大規模な実験である。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。
任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。
本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning [51.525891360380285]
HDMILは階層的な蒸留マルチインスタンス学習フレームワークであり、無関係なパッチを排除して高速かつ正確な分類を実現する。
HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンスプレスクリーンネットワーク(LIPN)の2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-02-28T15:10:07Z) - Efficient Whole Slide Image Classification through Fisher Vector Representation [2.4472081831862655]
本稿では,最も情報性の高いパッチの識別と検証を自動化し,WSI分類の新しい手法を提案する。
提案手法は2段階からなる。まず,その病理学的意義に基づいて,WSIから少数のパッチのみを抽出し,次いで,これらのパッチから抽出した特徴を表現するためにFisherベクトルを用いる。
このアプローチは、WSI表現内の主要な病理的特徴をアクセントするだけでなく、計算オーバーヘッドを大幅に減らし、プロセスをより効率的かつスケーラブルにする。
論文 参考訳(メタデータ) (2024-11-13T11:24:12Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - SPLICE -- Streamlining Digital Pathology Image Processing [0.7852714805965528]
画像分類・問合せのための教師なしパッチアルゴリズムSPLICE(Sequential Patching Lattice for Image Classification and Enquiry)を提案する。
SPLICEは、病理組織学的WSIをコンパクトな代表パッチセットに凝縮し、冗長性を最小化しながらWSIの"コラージュ"を形成する。
教師なしの方法として、SPLICEは組織像の保存要求を50%削減する。
論文 参考訳(メタデータ) (2024-04-26T21:30:36Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。