論文の概要: Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.17645v1
- Date: Sat, 21 Jun 2025 08:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.526187
- Title: Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning
- Title(参考訳): マルチモーダルインコンテキスト学習を用いた視覚言語モデルによる病理画像生成
- Authors: Shih-Wen Liu, Hsuan-Yu Fan, Wei-Ta Chu, Fu-En Yang, Yu-Chiang Frank Wang,
- Abstract要約: トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。
提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
- 参考スコア(独自算出の注目度): 27.49826980862286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating medical report generation from histopathology images is a critical challenge requiring effective visual representations and domain-specific knowledge. Inspired by the common practices of human experts, we propose an in-context learning framework called PathGenIC that integrates context derived from the training set with a multimodal in-context learning (ICL) mechanism. Our method dynamically retrieves semantically similar whole slide image (WSI)-report pairs and incorporates adaptive feedback to enhance contextual relevance and generation quality. Evaluated on the HistGen benchmark, the framework achieves state-of-the-art results, with significant improvements across BLEU, METEOR, and ROUGE-L metrics, and demonstrates robustness across diverse report lengths and disease categories. By maximizing training data utility and bridging vision and language with ICL, our work offers a solution for AI-driven histopathology reporting, setting a strong foundation for future advancements in multimodal clinical applications.
- Abstract(参考訳): 病理組織像から医療報告を生成することは、効果的な視覚的表現とドメイン固有の知識を必要とする重要な課題である。
人的専門家の共通の実践にインスパイアされたPathGenICは、トレーニングセットから派生したコンテキストをマルチモーダル・イン・コンテキスト学習(ICL)機構に統合する。
提案手法は意味論的に類似したスライド画像(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
HistGenベンチマークで評価されたこのフレームワークは、BLEU、METEOR、ROUGE-Lメトリクス間で大幅に改善され、さまざまなレポートの長さと疾患カテゴリにわたって堅牢性を示す。
ICLでトレーニングデータの有用性を最大化し、ビジョンと言語をブリッジすることで、私たちの研究は、AI駆動の病理組織学レポートのソリューションを提供し、マルチモーダルな臨床応用における将来の進歩の強力な基盤となる。
関連論文リスト
- MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training [21.315060059765894]
本稿では,新しいEntity-centered Context-aware Medical Vision-Language Pre-trainingフレームワークを提案する。
まず,大規模言語モデルを用いた医療報告からエンティティ中心のコンテキストを抽出する。
次に、エンティティ・アウェア・リバランス係数と記述子マスキング戦略をマスキング言語モデルに組み込む。
粗い画像表現と細かな画像表現の両方のセマンティック統合を改善するため、コンテキスト誘導型超解像タスクをマルチスケールのコンテキスト融合設計と共に提案する。
論文 参考訳(メタデータ) (2023-12-20T11:00:54Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。