論文の概要: Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT
- arxiv url: http://arxiv.org/abs/2312.01435v2
- Date: Fri, 15 Mar 2024 12:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:43:22.282511
- Title: Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT
- Title(参考訳): 予め訓練した視覚変換器とBERTを用いた病理画像の自動レポート生成
- Authors: Saurav Sengupta, Donald E. Brown,
- Abstract要約: 既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
- 参考スコア(独自算出の注目度): 1.0819408603463427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art (SOTA) methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer (ViT) to encode 4096x4096 sized patches of the Whole Slide Image (WSI) and a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model for language modeling-based decoder for report generation, we can build a performant and portable report generation mechanism that takes into account the whole high resolution image. Our method allows us to not only generate and evaluate captions that describe the image, but also helps us classify the image into tissue types and the gender of the patient as well. Our best performing model achieves a 89.52% accuracy in Tissue Type classification with a BLEU-4 score of 0.12 in our caption generation task.
- Abstract(参考訳): 病理組織学の深層学習は、疾患の分類、画像のセグメンテーションなどに成功している。
しかし, 現状技術(SOTA)手法を用いた画像とテキストのモダリティの組み合わせは, 病理像の高解像度化による課題となっている。
病理組織像の自動レポート生成はそのような課題である。
本研究では、既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて、4096x4096サイズの全スライド画像(WSI)のパッチを符号化し、レポート生成のための言語モデリングベースのデコーダのための変換器(BERT)モデルから事前トレーニング済み双方向エンコーダを表現できることを示し、高解像度画像全体を考慮した高性能でポータブルなレポート生成機構を構築することができる。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
組織型分類では89.52%の精度でBLEU-4スコアが0.12である。
関連論文リスト
- Automated Report Generation for Lung Cytological Images Using a CNN Vision Classifier and Multiple-Transformer Text Decoders: Preliminary Study [0.0]
感度と特異度はそれぞれ100%,96.4%であった。
生成されたテキストの文法とスタイルは、金本位とよりよく一致して正しいものと確認された。
論文 参考訳(メタデータ) (2024-03-26T23:32:29Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Automatic Report Generation for Histopathology images using pre-trained
Vision Transformers [1.2781698000674653]
既存の事前学習型視覚変換器を用いて4096x4096サイズのパッチをWSI(Whole Slide Image)にエンコードし、それをエンコーダおよびLSTMデコーダとしてレポート生成に使用することを示す。
また、既存の強力な訓練済み階層型視覚変換器の表現を使用でき、ゼロショット分類だけでなく、レポート生成にも有用であることを示すことができる。
論文 参考訳(メタデータ) (2023-11-10T16:48:24Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-modulated Few-shot Image Generation for Colorectal Tissue
Classification [58.147396879490124]
XM-GANと名づけられた少数ショット生成法は,1塩基と1対の参照組織像を入力とし,高品質で多様な画像を生成する。
我々の知る限りでは、大腸組織像の少数ショット生成を最初に調査した人物である。
論文 参考訳(メタデータ) (2023-04-04T17:50:30Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - DEPAS: De-novo Pathology Semantic Masks using a Generative Model [0.0]
DEPASと呼ばれるスケーラブルな生成モデルを導入し、組織構造をキャプチャし、最先端の品質の高精細なセマンティックマスクを生成する。
我々は,DEPASが皮膚,前立腺,肺の3種類の臓器に対して,組織の現実的な意味マップを生成する能力を示した。
論文 参考訳(メタデータ) (2023-02-13T16:48:33Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。