論文の概要: On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation
- arxiv url: http://arxiv.org/abs/2502.19285v2
- Date: Thu, 27 Feb 2025 09:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 11:31:35.573555
- Title: On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation
- Title(参考訳): マルチモーダル表現学習におけるテキスト前処理の重要性と病理報告の生成について
- Authors: Ruben T. Lucassen, Tijn van de Luijtgaarden, Sander P. J. Moonemans, Gerben E. Breimer, Willeke A. M. Blokx, Mitko Veta,
- Abstract要約: 病理学における視覚言語モデルにより、マルチモーダルケース検索と自動レポート生成が可能となる。
これまで開発されたモデルの多くは、スライド画像全体から推測できない情報を含む病理報告に基づいて訓練されてきた。
視覚言語モデリングのための病理報告からの情報選択がマルチモーダル表現の質や生成レポートにどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 0.7966328552094392
- License:
- Abstract: Vision-language models in pathology enable multimodal case retrieval and automated report generation. Many of the models developed so far, however, have been trained on pathology reports that include information which cannot be inferred from paired whole slide images (e.g., patient history), potentially leading to hallucinated sentences in generated reports. To this end, we investigate how the selection of information from pathology reports for vision-language modeling affects the quality of the multimodal representations and generated reports. More concretely, we compare a model trained on full reports against a model trained on preprocessed reports that only include sentences describing the cell and tissue appearances based on the H&E-stained slides. For the experiments, we built upon the BLIP-2 framework and used a cutaneous melanocytic lesion dataset of 42,433 H&E-stained whole slide images and 19,636 corresponding pathology reports. Model performance was assessed using image-to-text and text-to-image retrieval, as well as qualitative evaluation of the generated reports by an expert pathologist. Our results demonstrate that text preprocessing prevents hallucination in report generation. Despite the improvement in the quality of the generated reports, training the vision-language model on full reports showed better cross-modal retrieval performance.
- Abstract(参考訳): 病理学における視覚言語モデルにより、マルチモーダルケース検索と自動レポート生成が可能となる。
しかし、これまで開発されたモデルの多くは、ペア化されたスライド画像全体(例えば、患者の歴史)から推測できない情報を含む病理報告に基づいて訓練されており、生成されたレポートの幻覚文につながる可能性がある。
そこで本研究では,視覚言語モデリングのための病理報告からの情報選択が,マルチモーダル表現の品質や生成レポートにどのように影響するかを検討する。
より具体的には、H&Eスタイリングされたスライドに基づいて細胞と組織の外観を記述する文のみを含む事前処理されたレポートに基づいてトレーニングされたモデルに対して、フルレポートに基づいてトレーニングされたモデルを比較した。
実験ではBLIP-2を基盤として,42,433H&Eのスライス画像と19,636の病理所見を皮膚メラノサイト病変データセットを用いて検討した。
画像・テキスト・テキスト・画像検索と,専門家の病理医による報告の質的評価を用いて,モデル性能を評価した。
その結果, テキスト前処理は, レポート生成における幻覚を阻害することを示した。
生成したレポートの品質が向上したにもかかわらず,全レポート上での視覚言語モデルのトレーニングにより,クロスモーダル検索性能が向上した。
関連論文リスト
- Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text Foundation Model [3.356716093747221]
患者に対する病理報告を生成するために, 患者レベル多臓器報告生成(PMPRG)モデルを提案する。
我々のモデルはMETEORスコア0.68を達成し、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2024-09-23T22:22:32Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文 参考訳(メタデータ) (2024-01-12T02:43:58Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。