論文の概要: Masked Pre-Training of Transformers for Histology Image Analysis
- arxiv url: http://arxiv.org/abs/2304.07434v1
- Date: Fri, 14 Apr 2023 23:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:12:15.711083
- Title: Masked Pre-Training of Transformers for Histology Image Analysis
- Title(参考訳): 組織画像解析用変圧器のマスク予習
- Authors: Shuai Jiang, Liesbeth Hondelink, Arief A. Suriawinata, Saeed
Hassanpour
- Abstract要約: デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
パッチ間の空間的関係を保ちながら、WSIの広い領域を符号化するための有望な方法として、ビジュアルトランスフォーマーモデルが登場した。
本稿では,この問題を解決するためにラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
我々のモデルであるMaskHITは、トランスフォーマー出力を用いて、マスクしたパッチを再構築し、それらの位置と視覚的特徴に基づいて代表的組織学的特徴を学習する。
- 参考スコア(独自算出の注目度): 4.710921988115685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In digital pathology, whole slide images (WSIs) are widely used for
applications such as cancer diagnosis and prognosis prediction. Visual
transformer models have recently emerged as a promising method for encoding
large regions of WSIs while preserving spatial relationships among patches.
However, due to the large number of model parameters and limited labeled data,
applying transformer models to WSIs remains challenging. Inspired by masked
language models, we propose a pretext task for training the transformer model
without labeled data to address this problem. Our model, MaskHIT, uses the
transformer output to reconstruct masked patches and learn representative
histological features based on their positions and visual features. The
experimental results demonstrate that MaskHIT surpasses various multiple
instance learning approaches by 3% and 2% on survival prediction and cancer
subtype classification tasks, respectively. Furthermore, MaskHIT also
outperforms two of the most recent state-of-the-art transformer-based methods.
Finally, a comparison between the attention maps generated by the MaskHIT model
with pathologist's annotations indicates that the model can accurately identify
clinically relevant histological structures in each task.
- Abstract(参考訳): デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
近年,パッチ間の空間的関係を保ちながら,WSIの広い領域を符号化するための有望な手法として,ビジュアルトランスフォーマーモデルが登場している。
しかしながら、多くのモデルパラメータと限定されたラベル付きデータにより、wsisにトランスフォーマーモデルを適用することは依然として困難である。
マスク付き言語モデルに触発されて,ラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
私たちのモデルであるmaskhitは、トランスフォーマー出力を使用してマスクパッチを再構成し、その位置と視覚的特徴に基づいて代表的組織学的特徴を学習します。
実験の結果,MaskHITは生存予測および癌サブタイプ分類タスクにおいて,様々なインスタンス学習アプローチを3%,2%以上超えていることがわかった。
さらに、maskhitは最新の変圧器ベースの手法を2つ上回っている。
最後に、MaskHITモデルと病理医のアノテーションによる注意マップの比較により、各タスクにおける臨床的に関連する組織構造を正確に同定できることが示唆された。
関連論文リスト
- Hibou: A Family of Foundational Vision Transformers for Pathology [0.0]
コンピュータアルゴリズムによる解析のためにガラススライドを高解像度のデジタル画像に変換するデジタル病理学は、自動画像解析と大規模データ処理によって、診断精度、一貫性、効率を向上させることにより、分野に革命をもたらす。
本稿では,組織の種類や染色技術を表す100万枚以上のスライド画像(WSI)のプロプライエタリなデータセット上で,DINOv2フレームワークを用いてヒブーBとヒブーLの2つのモデル変異体を事前学習する。
我々の事前訓練されたモデルは、パッチレベルとスライドレベルの両方のベンチマークにおいて、既存のベンチマークを上回る優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-07T16:45:53Z) - A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for
Pathological Image Captioning [6.496515352848627]
本稿では,トランスフォーマに基づく病的キャプションのためのサブタイプ誘導型マスケプテッドトランス (SGMT) を提案する。
SGMTに付随するサブタイプ予測を導入し、トレーニングプロセスをガイドし、キャプション精度を高める。
PatchGastricADC22データセットの実験は、我々のアプローチがトランスフォーマーベースのモデルでタスクに効果的に適応することを実証している。
論文 参考訳(メタデータ) (2023-10-31T16:43:03Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Evaluating Transformer based Semantic Segmentation Networks for
Pathological Image Segmentation [2.7029872968576947]
病理は癌診断において重要な役割を担っている。
コンピュータ支援型病理画像解析において, 様々なCNNを用いた病理画像分割手法が開発されている。
Transformer Neural Network(Transformer)は、新たなディープラーニングパラダイムとして、画像全体にわたるグローバルな長距離依存関係をキャプチャする、ユニークなメリットを示している。
論文 参考訳(メタデータ) (2021-08-26T18:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。