論文の概要: MPath: Multimodal Pathology Report Generation from Whole Slide Images
- arxiv url: http://arxiv.org/abs/2512.11906v1
- Date: Wed, 10 Dec 2025 17:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.015015
- Title: MPath: Multimodal Pathology Report Generation from Whole Slide Images
- Title(参考訳): MPath:全スライド画像からのマルチモーダルな病理報告
- Authors: Noorul Wahab, Nasir Rajpoot,
- Abstract要約: 本稿では,WSI 由来の視覚的埋め込みにおいて,事前訓練された生体医療言語モデル (BioBART) を規定する軽量フレームワーク MPath を紹介する。
MPathはRED 2025グランドチャレンジのデータセットで開発、評価され、応募機会が限られているにもかかわらずテストフェーズ2で4位にランクインした。
その結果,病的報告生成のためのスケーラブルかつ解釈可能な戦略として,プロンプトベースのマルチモーダルコンディショニングの可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated generation of diagnostic pathology reports directly from whole slide images (WSIs) is an emerging direction in computational pathology. Translating high-resolution tissue patterns into clinically coherent text remains difficult due to large morphological variability and the complex structure of pathology narratives. We introduce MPath, a lightweight multimodal framework that conditions a pretrained biomedical language model (BioBART) on WSI-derived visual embeddings through a learned visual-prefix prompting mechanism. Instead of end-to-end vision-language pretraining, MPath leverages foundation-model WSI features (CONCH + Titan) and injects them into BioBART via a compact projection module, keeping the language backbone frozen for stability and data efficiency. MPath was developed and evaluated on the RED 2025 Grand Challenge dataset and ranked 4th in Test Phase 2, despite limited submission opportunities. The results highlight the potential of prompt-based multimodal conditioning as a scalable and interpretable strategy for pathology report generation.
- Abstract(参考訳): 全スライド画像(WSI)から直接診断病理報告を自動生成することは、計算病理学の新たな方向性である。
高分解能な組織パターンを臨床的に一貫性のあるテキストに翻訳することは、大きな形態的変動と病理的物語の複雑な構造のために難しいままである。
本稿では,学習した視覚前処理機構を通じて,WSI由来の視覚的埋め込みに事前訓練されたバイオメディカル言語モデル(BioBART)を条件付ける軽量なマルチモーダルフレームワークMPathを紹介する。
エンドツーエンドのビジョン言語事前トレーニングの代わりに,MPathは基盤モデルWSI機能(CONCH + Titan)を活用して,コンパクトなプロジェクションモジュールを通じてBioBARTに注入することで,言語のバックボーンを凍結して安定性とデータ効率を維持する。
MPathはRED 2025グランドチャレンジのデータセットで開発、評価され、応募機会が限られているにもかかわらずテストフェーズ2で4位にランクインした。
その結果,病的報告生成のためのスケーラブルかつ解釈可能な戦略として,プロンプトベースのマルチモーダルコンディショニングの可能性を強調した。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature [86.7745150269054]
パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
論文 参考訳(メタデータ) (2025-12-02T09:37:51Z) - PS3: A Multimodal Transformer Integrating Pathology Reports with Histology Images and Biological Pathways for Cancer Survival Prediction [2.638791169659607]
計算オンコロジーにおける現在のマルチモーダル融合アプローチは、主に、複数のギガピクセルのヒストロジー全体のスライド画像(WSI)をゲノムデータや転写データと統合することに焦点を当てている。
本稿では,両立表現を生成するプロトタイプベースの手法を提案し,生存予測のためにTransformerベースの融合モデルを用いて統合する。
論文 参考訳(メタデータ) (2025-09-24T11:37:52Z) - BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA [5.840467499436581]
バイオメディカルVQAのための新しい2レベルセマンティック一貫性制約フレームワークBioD2Cを提案する。
BioD2Cは、モデルと特徴レベルの両方で二重レベルのセマンティックインタラクションアライメントを実現し、モデルが質問に基づいて視覚的特徴を適応的に学習できるようにする。
本研究では,手動で修正した画像をフィルタリングし,質問と回答のペアをマルチモーダルな文脈で整列させることにより,過去のデータセットに固有のバイアスに対処する新たなデータセットであるBioVGQを確立する。
論文 参考訳(メタデータ) (2025-03-04T10:39:42Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。