論文の概要: Tissue Concepts v2: A Supervised Foundation Model For Whole Slide Images
- arxiv url: http://arxiv.org/abs/2507.05742v2
- Date: Wed, 09 Jul 2025 13:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.082241
- Title: Tissue Concepts v2: A Supervised Foundation Model For Whole Slide Images
- Title(参考訳): tissue Concepts v2: 全スライド画像のための改良された基礎モデル
- Authors: Till Nicke, Daniela Schacherer, Jan Raphael Schäfer, Natalia Artysh, Antje Prasse, André Homeyer, Andrea Schenk, Henning Höfener, Johannes Lotz,
- Abstract要約: 組織概念v2(TCv2)と呼ばれる全スライド画像への教師付き基礎モデルである組織概念の拡張について紹介する。
TCv2は、スライドレベルのラベルで教師付きエンドツーエンドのマルチタスク学習を使用する。
提案モデルでは,癌サブタイプベンチマークにおけるSSLトレーニングモデルよりも優れたパフォーマンスを示し,フリーで利用可能なデータで完全にトレーニングされている。
- 参考スコア(独自算出の注目度): 1.1552659783540218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models (FMs) are transforming the field of computational pathology by offering new approaches to analyzing histopathology images. Typically relying on weeks of training on large databases, the creation of FMs is a resource-intensive process in many ways. In this paper, we introduce the extension of our supervised foundation model, Tissue Concepts, to whole slide images, called Tissue Concepts v2 (TCv2), a supervised foundation model for whole slide images to address the issue above. TCv2 uses supervised, end-to-end multitask learning on slide-level labels. Training TCv2 uses a fraction of the training resources compared to self-supervised training. The presented model shows superior performance compared to SSL-trained models in cancer subtyping benchmarks and is fully trained on freely available data. Furthermore, a shared trained attention module provides an additional layer of explainability across different tasks.
- Abstract(参考訳): ファンデーションモデル(FM)は、病理像を解析するための新しいアプローチを提供することによって、計算病理学の分野を変えつつある。
通常、大規模なデータベースでの数週間のトレーニングに依存して、FMの作成は多くの点でリソース集約的なプロセスである。
本稿では, 組織概念v2 (TCv2) と呼ばれるスライド画像全体に対する教師付き基盤モデル, 組織概念の拡張について紹介する。
TCv2は、スライドレベルのラベルで教師付きエンドツーエンドのマルチタスク学習を使用する。
トレーニングTCv2は、自己教師型トレーニングと比較して、トレーニングリソースのごく一部を使用する。
提案モデルでは,癌サブタイプベンチマークにおけるSSLトレーニングモデルよりも優れたパフォーマンスを示し,フリーで利用可能なデータで完全にトレーニングされている。
さらに、共有トレーニングされたアテンションモジュールは、さまざまなタスクにまたがる説明可能性の追加レイヤを提供する。
関連論文リスト
- UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - Few-Shot Medical Image Segmentation with High-Fidelity Prototypes [38.073371773707514]
本稿では,オブジェクトフォアグラウンドと背景を包括的に表現する高忠実度プロトタイプを構築するための,DSPNet(Detail Self-Refined Prototype Network)を提案する。
得られた詳細セマンティクスを維持しつつグローバルなセマンティクスを構築するために,マルチモーダル構造をクラスタリングでモデル化し,それぞれをチャネル的に融合させることにより,前景のプロトタイプを学習する。
論文 参考訳(メタデータ) (2024-06-26T05:06:14Z) - PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology [9.556246087301883]
我々は,Virchhowタイルの埋め込みを基盤としたH&E染色組織学のスライドレベル基盤モデルPRISMを提案する。
PRISMは、臨床報告を生成する能力を持つスライドレベルの埋め込みを生成し、いくつかのモードで使用される。
テキストプロンプトを用いて、PRISMは教師付きアグリゲータモデルに近づいたゼロショットがん検出とサブタイピング性能を達成する。
論文 参考訳(メタデータ) (2024-05-16T16:59:12Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。