Fugu-MT 論文翻訳(概要): HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction

論文の概要: HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction

arxiv url: http://arxiv.org/abs/2403.05396v1
Date: Fri, 8 Mar 2024 15:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 13:17:29.815149
Title: HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction
Title（参考訳）: HistGen:ローカル-グローバル特徴エンコーディングとモーダル間相互作用による組織学的報告
Authors: Zhengrui Guo, Jiabo Ma, Yingxue Xu, Yihui Wang, Liansheng Wang, and Hao Chen
Abstract要約: HistGenは、病理組織学レポート生成のための学習可能なフレームワークである。スライド画像全体(WSI)と局所的およびグローバルな粒度からの診断レポートを整列させることで、レポート生成を促進することを目的としている。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。
参考スコア（独自算出の注目度）: 16.060286162384536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Histopathology serves as the gold standard in cancer diagnosis, with clinical reports being vital in interpreting and understanding this process, guiding cancer treatment and patient care. The automation of histopathology report generation with deep learning stands to significantly enhance clinical efficiency and lessen the labor-intensive, time-consuming burden on pathologists in report writing. In pursuit of this advancement, we introduce HistGen, a multiple instance learning-empowered framework for histopathology report generation together with the first benchmark dataset for evaluation. Inspired by diagnostic and report-writing workflows, HistGen features two delicately designed modules, aiming to boost report generation by aligning whole slide images (WSIs) and diagnostic reports from local and global granularity. To achieve this, a local-global hierarchical encoder is developed for efficient visual feature aggregation from a region-to-slide perspective. Meanwhile, a cross-modal context module is proposed to explicitly facilitate alignment and interaction between distinct modalities, effectively bridging the gap between the extensive visual sequences of WSIs and corresponding highly summarized reports. Experimental results on WSI report generation show the proposed model outperforms state-of-the-art (SOTA) models by a large margin. Moreover, the results of fine-tuning our model on cancer subtyping and survival analysis tasks further demonstrate superior performance compared to SOTA methods, showcasing strong transfer learning capability. Dataset, model weights, and source code are available in https://github.com/dddavid4real/HistGen.
Abstract（参考訳）: 病理組織学はがん診断の黄金の標準であり、がん治療と患者のケアを導くこの過程の解釈と理解に臨床報告が不可欠である。深層学習による病理組織学レポート作成の自動化は、臨床効率を著しく向上させ、レポート執筆における病理医の労働集約的、時間的負担を軽減する。この進歩を追求するために,組織病理レポート生成のための複数インスタンス学習型フレームワークであるhistgenと,評価のための最初のベンチマークデータセットを紹介する。診断とレポート書き込みのワークフローにインスパイアされたhistgenは,2つの微妙な設計のモジュールを備えている。スライドイメージ全体(wsis)と,ローカルおよびグローバル粒度からの診断レポートの調整によるレポート生成の促進を目的とする。これを実現するため、地域対スライドの観点から効率的な視覚的特徴集約を実現するために、局所的グローバル階層エンコーダが開発されている。一方,WSIの広範囲な視覚的シーケンスとそれに対応する高度に要約されたレポートとのギャップを効果的に埋めて,異なるモダリティ間のアライメントと相互作用を明確化するために,クロスモーダルなコンテキストモジュールを提案する。 WSIレポート生成実験の結果,提案手法は最先端モデル(SOTA)よりも大きなマージンで優れていた。さらに, 癌サブタイプおよび生存分析タスクにおけるモデル微調整の結果, SOTA法よりも優れた性能を示し, 強い伝達学習能力を示している。データセット、モデルウェイト、ソースコードはhttps://github.com/dddavid4real/HistGen.comで入手できる。

関連論文リスト

Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。 SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文参考訳（メタデータ） (2025-09-30T08:59:06Z)
AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。 DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文参考訳（メタデータ） (2025-08-12T06:37:41Z)
Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文参考訳（メタデータ） (2025-06-21T08:56:45Z)
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文参考訳（メタデータ） (2025-03-13T12:18:37Z)
Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文参考訳（メタデータ） (2025-01-07T01:19:48Z)
HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文参考訳（メタデータ） (2024-12-15T06:04:16Z)
Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model [3.356716093747221]
患者に対する病理報告を生成するために, 患者レベル多臓器報告生成(PMPRG)モデルを提案する。我々のモデルはMETEORスコア0.68を達成し、我々のアプローチの有効性を実証した。
論文参考訳（メタデータ） (2024-09-23T22:22:32Z)
Multi-modality Regional Alignment Network for Covid X-Ray Survival Prediction and Report Generation [36.343753593390254]
本研究は,放射線学報告の生成と生存予測のための説明可能なモデルであるマルチモーダル地域アライメントネットワーク(MRANet)を提案する。 MRANetは、領域固有の記述を視覚的に根拠として、完了戦略を備えた堅牢な解剖学的領域を提供する。横断LDMアライメントは、画像からテキストへの転送プロセスを強化するために使用され、その結果、臨床詳細に富んだ文と、放射線医の説明可能性が改善された。
論文参考訳（メタデータ） (2024-05-23T02:41:08Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文参考訳（メタデータ） (2023-11-27T05:05:41Z)
Radiology Report Generation Using Transformers Conditioned with Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文参考訳（メタデータ） (2023-11-18T14:52:26Z)
PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。提案手法は画像とテキストデータを融合して生成プロセスを強化する。我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文参考訳（メタデータ） (2023-09-01T22:08:32Z)
Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。詳しくは、グラフの基本構造は一般知識から事前構築される。各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文参考訳（メタデータ） (2023-03-18T03:53:43Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。 CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文参考訳（メタデータ） (2022-06-04T13:16:30Z)
Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文参考訳（メタデータ） (2022-04-28T02:32:53Z)
Radiology Report Generation with a Learned Knowledge Base and Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文参考訳（メタデータ） (2021-12-30T10:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。