論文の概要: Historical Report Guided Bi-modal Concurrent Learning for Pathology Report Generation
- arxiv url: http://arxiv.org/abs/2506.18658v1
- Date: Mon, 23 Jun 2025 14:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.009797
- Title: Historical Report Guided Bi-modal Concurrent Learning for Pathology Report Generation
- Title(参考訳): 病理報告生成のための2モーダル同時学習に関する歴史報告
- Authors: Ling Zhang, Boxiang Yun, Qingli Li, Yan Wang,
- Abstract要約: 病理学者の診断的推論を模擬したリポート「textbfBi-modal Concurrent Learning Framework for Pathology Report textbfGeneration (BiGen)」
BiGenは、ハイアテンションパッチにマッチして、事前に構築された医療知識銀行からWSI関連知識を取得する。
提案手法は,NLP指標が7.4%,Her-2予測のための分類指標が19.1%向上し,最先端性能を実現している。
- 参考スコア(独自算出の注目度): 14.8602760818616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated pathology report generation from Whole Slide Images (WSIs) faces two key challenges: (1) lack of semantic content in visual features and (2) inherent information redundancy in WSIs. To address these issues, we propose a novel Historical Report Guided \textbf{Bi}-modal Concurrent Learning Framework for Pathology Report \textbf{Gen}eration (BiGen) emulating pathologists' diagnostic reasoning, consisting of: (1) A knowledge retrieval mechanism to provide rich semantic content, which retrieves WSI-relevant knowledge from pre-built medical knowledge bank by matching high-attention patches and (2) A bi-modal concurrent learning strategy instantiated via a learnable visual token and a learnable textual token to dynamically extract key visual features and retrieved knowledge, where weight-shared layers enable cross-modal alignment between visual features and knowledge features. Our multi-modal decoder integrates both modals for comprehensive diagnostic reports generation. Experiments on the PathText (BRCA) dataset demonstrate our framework's superiority, achieving state-of-the-art performance with 7.4\% relative improvement in NLP metrics and 19.1\% enhancement in classification metrics for Her-2 prediction versus existing methods. Ablation studies validate the necessity of our proposed modules, highlighting our method's ability to provide WSI-relevant rich semantic content and suppress information redundancy in WSIs. Code is publicly available at https://github.com/DeepMed-Lab-ECNU/BiGen.
- Abstract(参考訳): WSI(Whole Slide Images)からの自動診断レポートを生成するには,(1)視覚的特徴における意味的内容の欠如,(2)WSIにおける固有情報冗長性の2つの課題がある。
これらの課題に対処するために,我々は,病理学者の診断推論をエミュレートする「BiGen(BiGen)」をエミュレートした,新しい歴史レポートガイドである「textbf{Bi}-modal Concurrent Learning Framework for Pathology」を提案している。(1) 高度な意味的コンテンツを提供する知識学習機構,(2) 学習可能なビジュアルトークンと学習可能なテキストトークンを用いて,学習可能なビジュアルトークンと学習可能なテキストトークンを用いて,学習可能な視覚的特徴と知識を動的に抽出するバイモーダル・コンカレント・ラーニング戦略。
我々のマルチモーダルデコーダは、総合的な診断レポート生成のために両方のモーダルを統合する。
PathText(BRCA)データセットの実験は、我々のフレームワークの優位性を示し、NLPメトリクスの7.4倍の相対的な改善と、Her-2予測のための分類指標の19.1倍の強化を達成している。
アブレーション研究は提案するモジュールの必要性を検証し、WSI関連リッチなセマンティックコンテンツを提供し、WSIにおける情報冗長性を抑える方法の能力を強調した。
コードはhttps://github.com/DeepMed-Lab-ECNU/BiGen.comで公開されている。
関連論文リスト
- Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。
提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文 参考訳(メタデータ) (2025-06-21T08:56:45Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Dynamic Traceback Learning for Medical Report Generation [12.746275623663289]
本研究では,医療報告生成のための新しいマルチモーダル動的トレースバック学習フレームワークDTraceを提案する。
生成したコンテンツのセマンティックな妥当性を監視するためのトレースバック機構と、画像やテキスト入力の様々な割合に適応するための動的学習戦略を導入する。
提案するDTraceフレームワークは,医療報告生成の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T07:13:06Z) - Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution [49.762034744605955]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。