Fugu-MT 論文翻訳(概要): WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images

論文の概要: WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images

arxiv url: http://arxiv.org/abs/2311.16480v4
Date: Thu, 27 Jun 2024 12:38:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 20:06:29.666357
Title: WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images
Title（参考訳）: WsiCaption:ギガピクセル全スライディング画像の診断レポート作成
Authors: Pingyi Chen, Honglin Li, Chenglu Zhu, Sunyi Zheng, Zhongyi Shui, Lin Yang,
Abstract要約: スライド画像全体から病理報告を生成する方法について検討する。私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
参考スコア（独自算出の注目度）: 5.960501267687475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we investigate how to generate pathology reports given whole slide images. On the data end, we curated the largest WSI-text dataset (PathText). In specific, we collected nearly 10000 high-quality WSI-text pairs for visual-language models by recognizing and cleaning pathology reports which narrate diagnostic slides in TCGA. On the model end, we propose the multiple instance generative model (MI-Gen) which can produce pathology reports for gigapixel WSIs. We benchmark our model on the largest subset of TCGA-PathoText. Experimental results show our model can generate pathology reports which contain multiple clinical clues and achieve competitive performance on certain slide-level tasks. We observe that simple semantic extraction from the pathology reports can achieve the best performance (0.838 of F1 score) on BRCA subtyping surpassing previous state-of-the-art approaches. Our collected dataset and related code are available.
Abstract（参考訳）: 全スライド画像は、癌の診断と治療のためのデジタル病理の基礎である。病理報告を書くことは、経験の浅い病理学者にとって、残酷でエラーを起こしやすい。作業負荷を低減し, 臨床自動化を改善するため, スライド画像全体の病態レポートの作成方法について検討した。データエンドでは、最大のWSIテキストデータセット(PathText)をキュレートしました。具体的には,TCGAにおける診断スライドの認識とクリーニングにより,約10000の高品質なWSIテキストペアを視覚言語モデルで収集した。モデル終端では、ギガピクセルWSIに対する病理報告を生成できる多重インスタンス生成モデル(MI-Gen)を提案する。 TCGA-PathoTextの最大のサブセットにモデルをベンチマークする。実験結果から,本モデルでは,複数の臨床手掛かりを含む病態報告を生成でき,特定のスライドレベルタスクにおける競合性能を達成できることが示された。本研究は, BRCA サブタイプにおいて, 診断報告から単純な意味抽出を行うことで, 従来の最先端手法を超越した性能(F1スコアの0.838)を達成できることを観察する。収集したデータセットと関連するコードが利用可能です。

関連論文リスト

PixCell: A generative foundation model for digital histopathology images [49.00921097924924]
PixCellは,病理組織学における最初の拡散ベース生成基盤モデルである。われわれはPanCan-30MでPixCellをトレーニングした。
論文参考訳（メタデータ） (2025-06-05T15:14:32Z)
From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文参考訳（メタデータ） (2025-03-14T20:15:04Z)
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation [0.7966328552094392]
病理学における視覚言語モデルにより、マルチモーダルケース検索と自動レポート生成が可能となる。これまで開発されたモデルの多くは、スライド画像全体から推測できない情報を含む病理報告に基づいて訓練されてきた。視覚言語モデリングのための病理報告からの情報選択がマルチモーダル表現の質や生成レポートにどのように影響するかを検討する。
論文参考訳（メタデータ） (2025-02-26T16:45:09Z)
Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model [3.356716093747221]
患者に対する病理報告を生成するために, 患者レベル多臓器報告生成(PMPRG)モデルを提案する。我々のモデルはMETEORスコア0.68を達成し、我々のアプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-09-23T22:22:32Z)
PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文参考訳（メタデータ） (2024-06-27T23:43:36Z)
PLUTO: Pathology-Universal Transformer [4.920983796208486]
そこで我々はPathoLogy Universal TransfOrmer (PLUTO)を提案する。我々はPLUTOの出力埋め込みを利用したタスク固有の適応ヘッドを,病的規模にまたがるタスクに設計する。 PLUTOは既存のタスク固有のベースラインや病理学固有の基盤モデルに適合するか、性能を向上する。
論文参考訳（メタデータ） (2024-05-13T16:40:17Z)
HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction [16.060286162384536]
HistGenは、病理組織学レポート生成のための学習可能なフレームワークである。スライド画像全体(WSI)と局所的およびグローバルな粒度からの診断レポートを整列させることで、レポート生成を促進することを目的としている。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-08T15:51:43Z)
A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文参考訳（メタデータ） (2024-02-09T05:05:28Z)
PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。提案手法は画像とテキストデータを融合して生成プロセスを強化する。我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文参考訳（メタデータ） (2023-09-01T22:08:32Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。 AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文参考訳（メタデータ） (2023-03-01T23:37:45Z)
Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文参考訳（メタデータ） (2022-11-29T23:47:56Z)
G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。 2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文参考訳（メタデータ） (2021-01-27T19:28:04Z)
Interpretable and synergistic deep learning for visual explanation and statistical estimations of segmentation of disease features from medical images [0.0]
医学画像からの病因分類やセグメンテーションのための深層学習(DL)モデルは、無関係な自然界画像からの伝達学習(TL)を用いて、ますます訓練されている。 TL後バイナリセグメンテーションに広く用いられているDLアーキテクチャの比較,厳密な統計的解析,および比較について報告する。 TIIおよびLMIモデル、コード、10,000以上の医療画像の無料GitHubリポジトリと、この研究からのGrad-CAM出力は、高度な計算医学の出発点として利用できる。
論文参考訳（メタデータ） (2020-11-11T14:08:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。