論文の概要: Semantic Context-aware mOdality fUsion Transformer (SCOUT): A Context-Aware Multimodal Transformer for Concept-Grounded Pathology Report Generation
- arxiv url: http://arxiv.org/abs/2605.01144v1
- Date: Fri, 01 May 2026 22:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.608853
- Title: Semantic Context-aware mOdality fUsion Transformer (SCOUT): A Context-Aware Multimodal Transformer for Concept-Grounded Pathology Report Generation
- Title(参考訳): 意味的文脈認識型mOdality fUsion Transformer (SCOUT):概念包含型病態レポート作成のためのコンテキスト認識型マルチモーダルトランス
- Authors: Suryakant Singh, Saarthak Kapse, Joel Saltz, Prateek Prasanna,
- Abstract要約: SCOUT:semantic Context-aware mOdality fUsion Transformerは,病理報告生成のためのコンテキスト認識概念に基づくマルチモーダルフレームワークである。
手法は、局所的な組織学的パターン、全体スライディングコンテキスト、専門家が作成したセマンティックディスクリプタを統一学習パラダイムに統合する。
テキスト生成中に、奥行き認識のコンテキスト変調と適応的なマルチモーダル融合を組み合わせることで、臨床的に一貫性のあるレポートを生成する。
- 参考スコア(独自算出の注目度): 6.938242893061667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-slide images (WSIs) present a fundamental challenge for computational pathology due to their extreme resolution, multi-scale heterogeneity, and the requirement for clinically reliable interpretation. Although recent pathology foundation models have enabled fluent report generation, they often lack clinical grounding, failing to accurately represent key diagnostic concepts and relationships observed by pathologists. This limitation arises from the difficulty of integrating heterogeneous visual evidence spanning fine-grained cellular patterns, slide-level tissue architecture, and high-level diagnostic concepts, while maintaining interpretability and clinical coherence. Here we present SCOUT: Semantic Context-aware mOdality fUsion Transformer, a context-aware concept-grounded multimodal framework for pathology report generation that enables progressive conditioning of image representations by global slide information and explicit diagnostic concepts. The method integrates local histological patterns, whole-slide context, and expert-curated semantic descriptors within a unified learning paradigm, allowing visual features to be dynamically refined throughout the encoding process. By combining depth-aware contextual modulation with adaptive multimodal fusion during text generation, the framework produces clinically coherent reports while preserving complementarity across representational scales. Using CONCH1.5 features, we evaluate SCOUT against WSI-Caption, HistGen, and BiGen on TCGA-BRCA, MICCAI REG, and HistAI. SCOUT achieves the best BLEU-1 to BLEU-4 and METEOR scores on all datasets, plus the best ROUGE-L on TCGA-BRCA and MICCAI REG. On TCGA-BRCA, it reaches 0.436/0.303/0.202/0.156 BLEU-1/2/3/4 and 0.204 METEOR; on REG 2025, it achieves 0.865/0.834/0.805/0.780 and 0.568. These results support progressive contextual conditioning for grounded pathology report generation.
- Abstract(参考訳): ホイルスライディング画像(WSI)は、その極度解像度、多スケールの不均一性、臨床的に信頼性の高い解釈の必要性から、計算病理学の基本的な課題を提示する。
最近の病理基盤モデルでは、流動的なレポート生成が可能になっているが、しばしば臨床基盤が欠如しており、病理学者が観察する重要な診断概念と関係を正確に表現することができない。
この制限は、微粒な細胞パターン、スライドレベルの組織構造、高レベルの診断概念にまたがる不均一な視覚的証拠を統合することの難しさから生じる。
SCOUT: Semantic Context-aware mOdality fUsion Transformerは,大域的なスライド情報と明示的な診断概念による画像表現のプログレッシブな条件付けを可能にする,コンテキスト対応のコンセプト・グラウンド・グラウンド・マルチモーダル・フレームワークである。
この手法は、局所的なヒストロジカルパターン、全スライディングコンテキスト、専門家が作成したセマンティックディスクリプタを統合学習パラダイムに統合し、エンコーディングプロセスを通して視覚的特徴を動的に洗練することができる。
テキスト生成中に、奥行き認識のコンテキスト変調と適応的なマルチモーダル融合を組み合わせることで、表現尺度間の相補性を保ちながら、臨床的にコヒーレントなレポートを生成する。
SCOUT を WSI-Caption, HistGen, BiGen に対して TCGA-BRCA, MICCAI REG, HistAI で評価する。
SCOUTはすべてのデータセットでBLEU-1からBLEU-4、METEORのスコア、TCGA-BRCAとMICCAI REGで最高のROUGE-Lを達成している。
TCGA-BRCAでは0.436/0.303/0.202/0.156 BLEU-1/2/3/4と0.204 METEORに到達し、REG 2025では0.865/0.834/0.805/0.780と0.568に達する。
これらの結果は,病状報告生成のための進行的文脈条件付けを支援する。
関連論文リスト
- Graph-Augmented Topological Internalization with Dual-Stream Classifiers for Medical Report Generation [3.3887144970801555]
トポロジカル内部化を用いたグラフ拡張型デュアルストリーム医療レポート生成法(GDMRG)を提案する。
本フレームワークでは,グローバルな疾患の共起を前提としたパラメータ化重み行列を生成するトポロジカル・ナレッジ・インサイナライゼーション・モジュールであるTKIを導入する。
MIMIC-CXRデータセットの実験は、GDMRGが自然言語の流速を維持しながら競争力のある臨床効果CEを達成することを示した。
論文 参考訳(メタデータ) (2026-05-04T09:17:27Z) - Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - PathMoE: Interpretable Multimodal Interaction Experts for Pediatric Brain Tumor Classification [30.58342408480846]
PathMoEは、H&Eスライド、病理報告、核レベルセルグラフを統合する、解釈可能なマルチモーダルフレームワークである。
内科的脳腫瘍データセットと外部TGAデータセットの2つのデータセット固有の分類タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-02T07:17:44Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis [9.728322291979564]
病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-28T14:46:24Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。