論文の概要: Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model
- arxiv url: http://arxiv.org/abs/2602.16422v1
- Date: Wed, 18 Feb 2026 12:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.592406
- Title: Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model
- Title(参考訳): ピラミッドの特徴抽出とUNIファンデーションモデルによる病理組織自動レポート作成
- Authors: Ahmet Halici, Ece Tugba Cebeci, Musa Balci, Mustafa Cini, Serkan Sokmen,
- Abstract要約: 本稿では,凍結した病理基盤モデルとレポート生成用トランスフォーマーデコーダを組み合わせた階層型視覚言語フレームワークを提案する。
WSI 処理をトラクタブルにするために,複数解像度のピラミッド型パッチ選択を行い,背景やアーティファクトを除去する。
生物医学用語をよりよく表現するために,バイオGPTを用いて出力をトークン化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating diagnostic text from histopathology whole slide images (WSIs) is challenging due to the gigapixel scale of the input and the requirement for precise, domain specific language. We propose a hierarchical vision language framework that combines a frozen pathology foundation model with a Transformer decoder for report generation. To make WSI processing tractable, we perform multi resolution pyramidal patch selection (downsampling factors 2^3 to 2^6) and remove background and artifacts using Laplacian variance and HSV based criteria. Patch features are extracted with the UNI Vision Transformer and projected to a 6 layer Transformer decoder that generates diagnostic text via cross attention. To better represent biomedical terminology, we tokenize the output using BioGPT. Finally, we add a retrieval based verification step that compares generated reports with a reference corpus using Sentence BERT embeddings; if a high similarity match is found, the generated report is replaced with the retrieved ground truth reference to improve reliability.
- Abstract(参考訳): 病理組織像全体(WSI)から診断用テキストを生成することは,入力のギガピクセルスケールと,正確なドメイン固有言語の必要性により困難である。
本稿では,凍結した病理基盤モデルとレポート生成用トランスフォーマーデコーダを組み合わせた階層型視覚言語フレームワークを提案する。
WSI 処理をトラクタブルにするために,多分解能ピラミッド型パッチ選択 (ダウンサンプリング係数 2^3 から 2^6 ) を行い,ラプラシアン分散と HSV に基づく基準を用いて背景やアーティファクトを除去する。
パッチ機能は、UNI Vision Transformerで抽出され、6層トランスフォーマーデコーダに投影され、クロスアテンションを介して診断テキストを生成する。
バイオメディカル用語をよりよく表現するために、バイオGPTを用いて出力をトークン化する。
最後に、Sentence BERT埋め込みを用いて生成されたレポートと参照コーパスを比較した検索ベースの検証ステップを追加し、高い類似性マッチングが見つかれば、生成されたレポートを検索済みの真実参照に置き換えて信頼性を向上させる。
関連論文リスト
- M2OST: Many-to-one Regression for Predicting Spatial Transcriptomics from Digital Pathology Images [16.19308597273405]
病理画像の階層構造に対応する多対一回帰変換器M2OSTを提案する。
1対1のイメージラベルペアで訓練された従来のモデルとは異なり、M2OSTはデジタル病理画像の異なるレベルからの複数の画像を使用して、共通の対応する領域における遺伝子発現を共同で予測する。
M2OSTはパラメータが少なく、浮動小数点演算(FLOP)で最先端のパフォーマンスを実現することができる
論文 参考訳(メタデータ) (2024-09-23T15:06:37Z) - M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics
Prediction from Histopathology Images [17.158450092707042]
M2ORTは病理像の階層構造に対応する多対一回帰変換器である。
我々は3つのパブリックSTデータセット上でM2ORTを試験し、実験結果から、M2ORTが最先端の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-01-19T10:37:27Z) - Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT [1.0819408603463427]
既存のトレーニング済みビジョントランスフォーマー(ViT)を用いて4096x4096サイズのWSIのパッチを符号化し,レポート生成のための双方向表現(BERT)モデルを構築することで,パフォーマンスとポータブルなレポート生成機構を構築することができることを示す。
本手法は,画像を記述するキャプションの生成と評価だけでなく,画像の組織型や患者の性別の分類にも有効である。
論文 参考訳(メタデータ) (2023-12-03T15:56:09Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。