論文の概要: HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction
- arxiv url: http://arxiv.org/abs/2507.04613v1
- Date: Mon, 07 Jul 2025 02:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.25534
- Title: HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction
- Title(参考訳): HiLa: がん生存予測のための階層的ビジョンランゲージコラボレーション
- Authors: Jiaqi Cui, Lu Wen, Yuchen Fei, Bo Liu, Luping Zhou, Dinggang Shen, Yan Wang,
- Abstract要約: 生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
- 参考スコア(独自算出の注目度): 55.00788339683146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Survival prediction using whole-slide images (WSIs) is crucial in cancer re-search. Despite notable success, existing approaches are limited by their reliance on sparse slide-level labels, which hinders the learning of discriminative repre-sentations from gigapixel WSIs. Recently, vision language (VL) models, which incorporate additional language supervision, have emerged as a promising solu-tion. However, VL-based survival prediction remains largely unexplored due to two key challenges. First, current methods often rely on only one simple lan-guage prompt and basic cosine similarity, which fails to learn fine-grained associ-ations between multi-faceted linguistic information and visual features within WSI, resulting in inadequate vision-language alignment. Second, these methods primarily exploit patch-level information, overlooking the intrinsic hierarchy of WSIs and their interactions, causing ineffective modeling of hierarchical interac-tions. To tackle these problems, we propose a novel Hierarchical vision-Language collaboration (HiLa) framework for improved survival prediction. Specifically, HiLa employs pretrained feature extractors to generate hierarchical visual features from WSIs at both patch and region levels. At each level, a series of language prompts describing various survival-related attributes are constructed and aligned with visual features via Optimal Prompt Learning (OPL). This ap-proach enables the comprehensive learning of discriminative visual features cor-responding to different survival-related attributes from prompts, thereby improv-ing vision-language alignment. Furthermore, we introduce two modules, i.e., Cross-Level Propagation (CLP) and Mutual Contrastive Learning (MCL) to maximize hierarchical cooperation by promoting interactions and consistency be-tween patch and region levels. Experiments on three TCGA datasets demonstrate our SOTA performance.
- Abstract(参考訳): がん再検索において,全スライディング画像(WSI)を用いた生存予測が重要である。
顕著な成功にもかかわらず、既存のアプローチはスパーススライドレベルラベルへの依存によって制限されており、これはギガピクセルWSIからの識別的再帰の学習を妨げる。
近年、視覚言語(VL)モデルが、将来性のある溶解剤として登場している。
しかしながら、VLに基づく生存予測は2つの主要な課題のためにほとんど未解明のままである。
第一に、現在の手法は単純なランゲージのプロンプトと基本的なコサインの類似性にのみ依存しており、多面言語情報とWSI内の視覚的特徴の微粒化を学習できないため、視覚的なアライメントが不十分である。
第二に、これらの手法は主にパッチレベルの情報を利用し、WSIとその相互作用の固有の階層を見渡すことで、階層的相互接続の非効率なモデリングを引き起こします。
これらの課題に対処するため、我々は生存予測を改善するための新しい階層型視覚・言語協調(HiLa)フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
各レベルにおいて、様々な生存関連属性を記述した一連の言語プロンプトが構築され、Optimal Prompt Learning (OPL)を介して視覚的特徴と整合する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にし、即興的な視覚言語アライメントを実現する。
さらに,クロスレベル・プロパゲーション (CLP) と相互コントラスト学習 (MCL) という2つのモジュールを導入し,相互作用の促進とパッチと領域レベルの整合性によって階層的協調を最大化する。
TCGAデータセットの3つの実験は、私たちのSOTAのパフォーマンスを示しています。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology [15.83613460419667]
Histo Whole-Slide Images (WSIs) は、CPATHにおける癌予後を評価する重要なツールである
既存のサバイバル分析アプローチはエキサイティングな進歩を遂げているが、一般的には高度に表現力のあるネットワークアーキテクチャを採用するに限られている。
本稿では,VLSA(Vision-Language-based SA)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-14T08:47:45Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。