論文の概要: Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers
- arxiv url: http://arxiv.org/abs/2311.06176v1
- Date: Fri, 10 Nov 2023 16:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 14:42:58.153181
- Title: Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers
- Title(参考訳): 予め訓練した視覚変換器を用いた病理画像の自動レポート生成
- Authors: Saurav Sengupta, Donald E. Brown
- Abstract要約: 既存の事前学習型視覚変換器を用いて4096x4096サイズのパッチをWSI(Whole Slide Image)にエンコードし、それをエンコーダおよびLSTMデコーダとしてレポート生成に使用することを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなく、レポート生成にも有用であることを示すことができる。
- 参考スコア(独自算出の注目度): 1.2781698000674653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning for histopathology has been successfully used for disease
classification, image segmentation and more. However, combining image and text
modalities using current state-of-the-art methods has been a challenge due to
the high resolution of histopathology images. Automatic report generation for
histopathology images is one such challenge. In this work, we show that using
an existing pre-trained Vision Transformer in a two-step process of first using
it to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and then
using it as the encoder and an LSTM decoder for report generation, we can build
a fairly performant and portable report generation mechanism that takes into
account the whole of the high resolution image, instead of just the patches. We
are also able to use representations from an existing powerful pre-trained
hierarchical vision transformer and show its usefulness in not just zero shot
classification but also for report generation.
- Abstract(参考訳): 病理組織学の深層学習は、疾患の分類、画像分割などに有効である。
しかし,病理組織像の高分解能化により,最先端の手法による画像とテキストの融合が課題となっている。
病理画像の自動レポート生成はそのような課題である。
本稿では,既存の事前学習済み視覚トランスフォーマを用いて,まず4096x4096 サイズのスライド画像(wsi)のパッチを符号化し,それをエンコーダとlstmデコーダとしてレポート生成に使用する2段階のプロセスにおいて,高い解像度の画像全体を考慮した,かなり高性能でポータブルなレポート生成機構を構築できることを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなくレポート生成にも有用であることを示す。
関連論文リスト
- Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT [1.0819408603463427]
既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
論文 参考訳(メタデータ) (2023-12-03T15:56:09Z) - Representation Learning for Non-Melanoma Skin Cancer using a Latent
Autoencoder [0.0]
生成学習は、表現学習の強力なツールであり、バイオメディカルイメージングにおける問題に対する特定の約束を示す。
生成モデルからイメージを忠実に再構築することは依然として困難であり、特に組織学的画像と同じくらい複雑である。
本研究では,非メラノーマ皮膚癌の実際の画像のエンコードとデコードを改善するために,既存の2つの方法(オートエンコーダと潜在オートエンコーダ)を組み合わせる。
論文 参考訳(メタデータ) (2022-09-05T06:24:58Z) - Conviformers: Convolutionally guided Vision Transformer [5.964436882344729]
本稿では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素を詳細に分析し,解説する。
Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリや計算コストを犠牲にすることなく高解像度画像を処理できる。
単純だが効果的なアプローチで、Herbarium 202xとiNaturalist 2019データセットでSoTAを達成しました。
論文 参考訳(メタデータ) (2022-08-17T13:09:24Z) - Understanding Transfer Learning for Chest Radiograph Clinical Report
Generation with Modified Transformer Architectures [0.0]
胸部X線画像入力から臨床報告を生成するために,一連の改良型トランスフォーマーを訓練する。
BLEU(1-4)、ROUGE-L、CIDEr、臨床のCheXbert F1スコアを用いて、我々のモデルを評価し、アートモデルの状態と競合するスコアを示す。
論文 参考訳(メタデータ) (2022-05-05T03:08:05Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。