論文の概要: TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning
- arxiv url: http://arxiv.org/abs/2512.21331v1
- Date: Wed, 24 Dec 2025 18:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.851015
- Title: TICON: A Slide-Level Tile Contextualizer for Histopathology Representation Learning
- Title(参考訳): TICON: 病理組織学的表現学習のためのスライドレベルタイルコンテクストライザ
- Authors: Varun Belagali, Saarthak Kapse, Pierre Marza, Srijan Das, Zilinghan Li, Sofiène Boutaj, Pushpak Pati, Srikar Yellapragada, Tarak Nath Nandi, Ravi K Madduri, Joel Saltz, Prateek Prasanna, Stergios Christodoulidis Maria Vakalopoulou, Dimitris Samaras,
- Abstract要約: TICONは変換器ベースのタイル表現文脈化器である。
計算病理学における 'any' アプリケーションのためのリッチでコンテキスト化された埋め込みを生成する。
- 参考スコア(独自算出の注目度): 37.30660663807962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interpretation of small tiles in large whole slide images (WSI) often needs a larger image context. We introduce TICON, a transformer-based tile representation contextualizer that produces rich, contextualized embeddings for ''any'' application in computational pathology. Standard tile encoder-based pipelines, which extract embeddings of tiles stripped from their context, fail to model the rich slide-level information essential for both local and global tasks. Furthermore, different tile-encoders excel at different downstream tasks. Therefore, a unified model is needed to contextualize embeddings derived from ''any'' tile-level foundation model. TICON addresses this need with a single, shared encoder, pretrained using a masked modeling objective to simultaneously unify and contextualize representations from diverse tile-level pathology foundation models. Our experiments demonstrate that TICON-contextualized embeddings significantly improve performance across many different tasks, establishing new state-of-the-art results on tile-level benchmarks (i.e., HEST-Bench, THUNDER, CATCH) and slide-level benchmarks (i.e., Patho-Bench). Finally, we pretrain an aggregator on TICON to form a slide-level foundation model, using only 11K WSIs, outperforming SoTA slide-level foundation models pretrained with up to 350K WSIs.
- Abstract(参考訳): スライド画像全体(WSI)における小さなタイルの解釈は、より大きな画像コンテキストを必要とすることが多い。
計算病理学における 'any' アプリケーションのためのリッチでコンテキスト化された埋め込みを生成する変換器ベースのタイル表現文脈化器 TICON を紹介する。
標準的なタイルエンコーダベースのパイプラインは、コンテキストから取り除かれたタイルの埋め込みを抽出するが、ローカルタスクとグローバルタスクの両方に不可欠なリッチなスライドレベル情報をモデル化することができない。
さらに、異なるタイルエンコーダは、異なる下流タスクで優れています。
したがって、"any"タイルレベルの基礎モデルから派生した埋め込みを文脈化するために統一モデルが必要である。
TICONは、様々なタイルレベルの病理基盤モデルから表現を同時に統一し、コンテキスト化するために、マスク付きモデリングの目的を用いて事前訓練された単一の共有エンコーダで、このニーズに対処する。
実験により,TICON-contextualized embeddeds は,タイルレベルのベンチマーク (HEST-Bench, THUNDER, CATCH) とスライドレベルのベンチマーク (Patho-Bench) において,様々なタスクにおけるパフォーマンスを著しく向上させることを示した。
最後に,TICON 上でアグリゲータを事前訓練し,最大 350K WSI で事前訓練された SoTA スライドレベル基盤モデルより優れた111 WSI のみを用いて,スライドレベル基礎モデルを形成する。
関連論文リスト
- DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models [103.18486625853099]
DEFT(Decompositional Efficient Fine-Tuning)は、事前トレーニングされた重み行列を2つのコンポーネントに分解することで適応する。
パーソナライズのためのDreamboothおよびDreambench Plusデータセット、オブジェクトおよびシーン適応のためのInsDetデータセット、ユニバーサル画像生成フレームワークのためのVisualClozeデータセットについて実験を行った。
論文 参考訳(メタデータ) (2025-09-26T18:01:15Z) - THUNDER: Tile-level Histopathology image UNDERstanding benchmark [33.01211128068007]
THUNDERは、デジタル病理基盤モデルのタイルレベルベンチマークである。
本稿では,16種類のデータセットに対して,23の基盤モデルを包括的に比較する。
論文 参考訳(メタデータ) (2025-07-10T15:41:35Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Combining Graph Neural Network and Mamba to Capture Local and Global Tissue Spatial Relationships in Whole Slide Images [1.1813933389519358]
計算病理学では、ギガピクセル全体のスライド画像(WSI)から空間的特徴を抽出することが基本的な課題である。
本稿では,メッセージパッシンググラフニューラルネットワーク(GNN)と状態空間モデル(Mamba)を組み合わせて,局所的およびグローバルな空間関係を捉えるモデルを提案する。
早期肺腺癌患者の無再発生存予測に有効であった。
論文 参考訳(メタデータ) (2024-06-05T22:06:57Z) - PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology [9.556246087301883]
我々は,Virchhowタイルの埋め込みを基盤としたH&E染色組織学のスライドレベル基盤モデルPRISMを提案する。
PRISMは、臨床報告を生成する能力を持つスライドレベルの埋め込みを生成し、いくつかのモードで使用される。
テキストプロンプトを用いて、PRISMは教師付きアグリゲータモデルに近づいたゼロショットがん検出とサブタイピング性能を達成する。
論文 参考訳(メタデータ) (2024-05-16T16:59:12Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。