Fugu-MT 論文翻訳(概要): HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction

論文の概要: HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction

arxiv url: http://arxiv.org/abs/2507.04613v1
Date: Mon, 07 Jul 2025 02:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.25534
Title: HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction
Title（参考訳）: HiLa: がん生存予測のための階層的ビジョンランゲージコラボレーション
Authors: Jiaqi Cui, Lu Wen, Yuchen Fei, Bo Liu, Luping Zhou, Dinggang Shen, Yan Wang,
Abstract要約: 生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
参考スコア（独自算出の注目度）: 55.00788339683146
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Survival prediction using whole-slide images (WSIs) is crucial in cancer re-search. Despite notable success, existing approaches are limited by their reliance on sparse slide-level labels, which hinders the learning of discriminative repre-sentations from gigapixel WSIs. Recently, vision language (VL) models, which incorporate additional language supervision, have emerged as a promising solu-tion. However, VL-based survival prediction remains largely unexplored due to two key challenges. First, current methods often rely on only one simple lan-guage prompt and basic cosine similarity, which fails to learn fine-grained associ-ations between multi-faceted linguistic information and visual features within WSI, resulting in inadequate vision-language alignment. Second, these methods primarily exploit patch-level information, overlooking the intrinsic hierarchy of WSIs and their interactions, causing ineffective modeling of hierarchical interac-tions. To tackle these problems, we propose a novel Hierarchical vision-Language collaboration (HiLa) framework for improved survival prediction. Specifically, HiLa employs pretrained feature extractors to generate hierarchical visual features from WSIs at both patch and region levels. At each level, a series of language prompts describing various survival-related attributes are constructed and aligned with visual features via Optimal Prompt Learning (OPL). This ap-proach enables the comprehensive learning of discriminative visual features cor-responding to different survival-related attributes from prompts, thereby improv-ing vision-language alignment. Furthermore, we introduce two modules, i.e., Cross-Level Propagation (CLP) and Mutual Contrastive Learning (MCL) to maximize hierarchical cooperation by promoting interactions and consistency be-tween patch and region levels. Experiments on three TCGA datasets demonstrate our SOTA performance.
Abstract（参考訳）: がん再検索において,全スライディング画像(WSI)を用いた生存予測が重要である。顕著な成功にもかかわらず、既存のアプローチはスパーススライドレベルラベルへの依存によって制限されており、これはギガピクセルWSIからの識別的再帰の学習を妨げる。近年、視覚言語(VL)モデルが、将来性のある溶解剤として登場している。しかしながら、VLに基づく生存予測は2つの主要な課題のためにほとんど未解明のままである。第一に、現在の手法は単純なランゲージのプロンプトと基本的なコサインの類似性にのみ依存しており、多面言語情報とWSI内の視覚的特徴の微粒化を学習できないため、視覚的なアライメントが不十分である。第二に、これらの手法は主にパッチレベルの情報を利用し、WSIとその相互作用の固有の階層を見渡すことで、階層的相互接続の非効率なモデリングを引き起こします。これらの課題に対処するため、我々は生存予測を改善するための新しい階層型視覚・言語協調(HiLa)フレームワークを提案する。具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。各レベルにおいて、様々な生存関連属性を記述した一連の言語プロンプトが構築され、Optimal Prompt Learning (OPL)を介して視覚的特徴と整合する。このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にし、即興的な視覚言語アライメントを実現する。さらに,クロスレベル・プロパゲーション (CLP) と相互コントラスト学習 (MCL) という2つのモジュールを導入し,相互作用の促進とパッチと領域レベルの整合性によって階層的協調を最大化する。 TCGAデータセットの3つの実験は、私たちのSOTAのパフォーマンスを示しています。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Hierarchical Cross-modal Prompt Learning for Vision-Language Models [9.128564580725627]
HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。テキストと視覚の相補的な強みを活用して知識の流れを導出する。 11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
論文参考訳（メタデータ） (2025-07-20T14:18:04Z)
A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文参考訳（メタデータ） (2025-05-11T15:30:06Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology [15.83613460419667]
Histo Whole-Slide Images (WSIs) は、CPATHにおける癌予後を評価する重要なツールである既存のサバイバル分析アプローチはエキサイティングな進歩を遂げているが、一般的には高度に表現力のあるネットワークアーキテクチャを採用するに限られている。本稿では,VLSA(Vision-Language-based SA)パラダイムを提案する。
論文参考訳（メタデータ） (2024-09-14T08:47:45Z)
Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文参考訳（メタデータ） (2023-05-09T02:52:47Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-31T05:54:18Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。 ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文参考訳（メタデータ） (2021-08-16T13:16:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。