論文の概要: PathoTune: Adapting Visual Foundation Model to Pathological Specialists
- arxiv url: http://arxiv.org/abs/2403.16497v2
- Date: Mon, 15 Jul 2024 07:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:15:36.294512
- Title: PathoTune: Adapting Visual Foundation Model to Pathological Specialists
- Title(参考訳): PathoTune: 病理専門医にビジュアルファウンデーションモデルを適用する
- Authors: Jiaxuan Lu, Fang Yan, Xiaofan Zhang, Yue Gao, Shaoting Zhang,
- Abstract要約: PathoTuneは、病理学的または視覚的基礎モデルから病理学固有のタスクに効率的に適応するように設計されたフレームワークである。
パッチレベルとWSIレベルの複数のデータセットにまたがる結果は、単一モードのプロンプトチューニングアプローチよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 17.257632069090985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As natural image understanding moves towards the pretrain-finetune era, research in pathology imaging is concurrently evolving. Despite the predominant focus on pretraining pathological foundation models, how to adapt foundation models to downstream tasks is little explored. For downstream adaptation, we propose the existence of two domain gaps, i.e., the Foundation-Task Gap and the Task-Instance Gap. To mitigate these gaps, we introduce PathoTune, a framework designed to efficiently adapt pathological or even visual foundation models to pathology-specific tasks via multi-modal prompt tuning. The proposed framework leverages Task-specific Visual Prompts and Task-specific Textual Prompts to identify task-relevant features, along with Instance-specific Visual Prompts for encoding single pathological image features. Results across multiple datasets at both patch-level and WSI-level demonstrate its superior performance over single-modality prompt tuning approaches. Significantly, PathoTune facilitates the direct adaptation of natural visual foundation models to pathological tasks, drastically outperforming pathological foundation models with simple linear probing. The code is available at https://github.com/openmedlab/PathoDuet.
- Abstract(参考訳): 自然画像の理解は、訓練前ファイナチューン時代に向かっているため、病理画像の研究は同時に進化している。
病理基礎モデルの事前訓練に重点を置いているにもかかわらず、下流のタスクに基礎モデルを適応する方法はほとんど調査されていない。
下流適応には、ファンデーション・タスクギャップとタスク・インスタンスギャップという2つの領域ギャップが存在する。
このギャップを軽減するためにPathoTuneを導入する。PathoTuneは、マルチモーダル・プロンプト・チューニングにより、病理モデルや視覚的基礎モデルを病理固有のタスクに効率的に適応するように設計されたフレームワークである。
提案フレームワークは、タスク固有のVisual Promptsとタスク固有のTextual Promptsを活用して、タスクに関連する機能を特定し、インスタンス固有のVisual Promptsを1つの病理画像の特徴を符号化する。
パッチレベルとWSIレベルの複数のデータセットにまたがる結果は、単一モードのプロンプトチューニングアプローチよりも優れたパフォーマンスを示している。
重要なこととして、PathoTuneは、自然な視覚基盤モデルの病理的タスクへの直接的な適応を促進し、単純な線形探索による病理基礎モデルを大幅に上回っている。
コードはhttps://github.com/openmedlab/PathoDuet.comで公開されている。
関連論文リスト
- PLUTO: Pathology-Universal Transformer [4.920983796208486]
そこで我々はPathoLogy Universal TransfOrmer (PLUTO)を提案する。
我々はPLUTOの出力埋め込みを利用したタスク固有の適応ヘッドを,病的規模にまたがるタスクに設計する。
PLUTOは既存のタスク固有のベースラインや病理学固有の基盤モデルに適合するか、性能を向上する。
論文 参考訳(メタデータ) (2024-05-13T16:40:17Z) - Adapting Self-Supervised Learning for Computational Pathology [3.009236957464476]
自己教師あり学習(SSL)は、タスク固有の監督なしに様々なタスクにうまく適応できるネットワークを訓練するための重要な技術として登場した。
本稿では、DINOv2アルゴリズムを中心に、病理データに対するSSLの修正について検討する。
論文 参考訳(メタデータ) (2024-05-02T19:22:39Z) - PathoDuet: Foundation Models for Pathological Slide Analysis of H&E and
IHC Stains [2.77305170426095]
PathoDuetは,病理組織像の事前学習モデルであり,病理組織学における新たな自己教師型学習フレームワークである。
このフレームワークは、新しく導入されたプリテキストトークンと後続のタスクライザーによって特徴付けられ、画像間の特定の関係を明示的に活用する。
これに基づいて、ヘマトキシリンとエオシンの画像上でモデルを事前訓練するために、クロススケール位置決めとクロスステイン転送という2つのプレテキストタスクが設計された。
論文 参考訳(メタデータ) (2023-12-15T15:45:52Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Task-Agnostic Morphology Evolution [94.97384298872286]
モルフォロジーと振る舞いを共同適用する現在のアプローチでは、特定のタスクの報酬をモルフォロジー最適化のシグナルとして使用します。
これはしばしば高価なポリシー最適化を必要とし、一般化するために構築されていないタスクに依存した形態をもたらす。
我々は,これらの問題を緩和するための新しいアプローチであるタスク非依存形態進化(tame)を提案する。
論文 参考訳(メタデータ) (2021-02-25T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。