論文の概要: WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering
- arxiv url: http://arxiv.org/abs/2407.05603v1
- Date: Mon, 8 Jul 2024 04:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:00:01.979493
- Title: WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering
- Title(参考訳): WSI-VQA:生成的視覚質問応答による全スライド画像の解釈
- Authors: Pingyi Chen, Chenglu Zhu, Sunyi Zheng, Honglin Li, Lin Yang,
- Abstract要約: 生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
- 参考スコア(独自算出の注目度): 6.315841446240698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole slide imaging is routinely adopted for carcinoma diagnosis and prognosis. Abundant experience is required for pathologists to achieve accurate and reliable diagnostic results of whole slide images (WSI). The huge size and heterogeneous features of WSIs make the workflow of pathological reading extremely time-consuming. In this paper, we propose a novel framework (WSI-VQA) to interpret WSIs by generative visual question answering. WSI-VQA shows universality by reframing various kinds of slide-level tasks in a question-answering pattern, in which pathologists can achieve immunohistochemical grading, survival prediction, and tumor subtyping following human-machine interaction. Furthermore, we establish a WSI-VQA dataset which contains 8672 slide-level question-answering pairs with 977 WSIs. Besides the ability to deal with different slide-level tasks, our generative model which is named Wsi2Text Transformer (W2T) outperforms existing discriminative models in medical correctness, which reveals the potential of our model to be applied in the clinical scenario. Additionally, we also visualize the co-attention mapping between word embeddings and WSIs as an intuitive explanation for diagnostic results. The dataset and related code are available at https://github.com/cpystan/WSI-VQA.
- Abstract(参考訳): 全スライド画像は、がんの診断と予後に日常的に採用されている。
病理医は, スライド画像全体(WSI)の正確かつ信頼性の高い診断結果を得るためには, 異常な経験が必要である。
WSIの巨大なサイズとヘテロジニアスな特徴は、病的読み出しのワークフローを極めて時間を要するものにします。
本稿では,生成的視覚的質問応答によりWSIを解釈する新しいフレームワーク(WSI-VQA)を提案する。
WSI-VQAは、病理学者がヒトと機械の相互作用によって免疫組織化学的グレーディング、生存予測、腫瘍のサブタイピングを達成できるような、様々な種類のスライドレベルタスクを質問応答パターンで反映することで普遍性を示す。
さらに,977個のWSIを用いて,8672個のスライドレベルの質問応答ペアを含むWSI-VQAデータセットを構築した。
Wsi2Text Transformer (W2T) は, スライドレベルの異なるタスクに対処する能力に加えて, 既存の識別モデルよりも医療的正確性に優れており, 臨床シナリオに適用すべきモデルの可能性を明らかにしている。
さらに,単語埋め込みとWSI間のコアテンションマッピングを,診断結果の直感的な説明として可視化する。
データセットと関連するコードはhttps://github.com/cpystan/WSI-VQA.comで公開されている。
関連論文リスト
- Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement [18.839406725114042]
概念アンカー誘導型タスク固有特徴強調(CATE)を提案する。
CATEは、特定の下流タスクに対する病理基盤モデルの表現性と識別性を高めることができる。
パブリックなWSIデータセットの実験は、CATEがMILモデルの性能と一般化性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-11-15T02:38:00Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Long-MIL: Scaling Long Contextual Multiple Instance Learning for
Histopathology Whole Slide Image Analysis [9.912061800841267]
病理組織の全スライド画像(WSI)を解析に用いる。
以前の方法は一般的にWSIを多数のパッチに分割し、WSI内のすべてのパッチを集約してスライドレベルの予測を行う。
本稿では,線形バイアスを注意に導入することにより,形状の異なる長文WSIの位置埋め込みを改善することを提案する。
論文 参考訳(メタデータ) (2023-11-21T03:08:47Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。