論文の概要: Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized
Narratives from Open-Source Histopathology Videos
- arxiv url: http://arxiv.org/abs/2312.04746v1
- Date: Thu, 7 Dec 2023 23:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:32:01.926717
- Title: Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized
Narratives from Open-Source Histopathology Videos
- Title(参考訳): Quilt-LLaVA: オープンソースの病理ビデオから局所的物語を抽出した視覚的指導チューニング
- Authors: Mehmet Saygin Seyfioglu, Wisdom O. Ikezogwo, Fatemeh Ghezloo, Ranjay
Krishna, Linda Shapiro
- Abstract要約: そこで本研究では,107,131の病理組織学的特異性問合せ/問合せの大規模データセットであるQuilt-Instructを紹介した。
Quilt-Instructを使ってQult-LLaVAをトレーニングします。
- 参考スコア(独自算出の注目度): 12.780838861124941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The gigapixel scale of whole slide images (WSIs) poses a challenge for
histopathology multi-modal chatbots, requiring a global WSI analysis for
diagnosis, compounding evidence from different WSI patches. Current visual
instruction datasets, generated through large language models, focus on
creating question/answer pairs for individual image patches, which may lack
diagnostic capacity on their own in histopathology, further complicated by the
absence of spatial grounding in histopathology image captions. To bridge this
gap, we introduce Quilt-Instruct, a large-scale dataset of 107,131
histopathology-specific instruction question/answer pairs, that is collected by
leveraging educational histopathology videos from YouTube, which provides
spatial localization of captions by automatically extracting narrators' cursor
movements. In addition, we provide contextual reasoning by extracting diagnosis
and supporting facts from the entire video content to guide the extrapolative
reasoning of GPT-4. Using Quilt-Instruct, we train Quilt-LLaVA, which can
reason beyond the given single image patch, enabling diagnostic reasoning and
the capability of spatial awareness. To evaluate Quilt-LLaVA, we propose a
comprehensive evaluation dataset created from 985 images and 1283
human-generated question-answers. We also thoroughly evaluate Quilt-LLaVA using
public histopathology datasets, where Quilt-LLaVA significantly outperforms
SOTA by over 10% on relative GPT-4 score and 4% and 9% on open and closed set
VQA. Our code, data, and model are publicly available at quilt-llava.github.io.
- Abstract(参考訳): スライド画像全体(WSI)のギガピクセルスケールは、病理組織学的マルチモーダルチャットボットにとって課題であり、診断にはグローバルなWSI分析が必要である。
現在のビジュアルインストラクションデータセットは、大きな言語モデルを通じて生成され、個々の画像パッチに対する質問/回答ペアの作成に焦点を当てている。
このギャップを埋めるために,YouTube の教育病理ビデオを利用して収集した 107,131 個の病理組織特異的指導質問/回答ペアの大規模データセットである Quilt-Instruct を導入し,ナレーターのカーソル運動を自動的に抽出してキャプションの空間的局所化を実現する。
さらに,映像コンテンツ全体から診断と事実を抽出して文脈推論を行い,GPT-4の補外的推論を導出する。
Quilt-Instructを使ってQuilt-LLaVAを訓練し、与えられた単一イメージパッチを越え、診断的推論と空間認識能力を実現する。
Quilt-LLaVAを評価するために,985の画像と1283人の質問回答から作成した包括的評価データセットを提案する。
また,公共の病理組織学的データセットを用いてQuilt-LLaVAを徹底的に評価し,相対的なGPT-4スコアではQuilt-LLaVAが10%以上,開集合VQAでは4%,クローズド集合VQAでは9%以上,SOTAを有意に上回った。
コード、データ、モデルはquilt-llava.github.ioで公開されている。
関連論文リスト
- Semantic Segmentation Based Quality Control of Histopathology Whole Slide Images [2.953447779233234]
We developed a software pipeline for quality control (QC) of histopathology whole slide images (WSIs)。
異なるレベルのぼかし、組織領域、組織折り、ペンマークなど、さまざまな領域を区分する。
TCGAは、28の臓器から11,000以上の病理像を含むWSIデータセットとして最大である。
論文 参考訳(メタデータ) (2024-10-04T10:03:04Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Quilt-1M: One Million Image-Text Pairs for Histopathology [10.263853626151297]
われわれはYouTubeを使って802,144ドルの画像とテキストのペアからなるビジョン言語データセットをキュレートしている。
我々はQUILTをTwitter、研究論文、インターネットなど他の情報源のデータセットと組み合わせてQUILT-1Mを作成します。
本モデルでは,新しい病理像の分類を行うため,ゼロショットとリニアプローブの両タスクにおいて最先端のモデルより優れる。
論文 参考訳(メタデータ) (2023-06-20T00:14:47Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Towards Automatic Parsing of Structured Visual Content through the Use
of Synthetic Data [65.68384124394699]
本研究では,構造化ビジュアルコンテンツ(Structured Visual Content, SVC)を画像と地上の真実の形で含む合成データセットを提案する。
本稿では、SVC画像からグラフ表現を自動的に抽出するアプリケーションによる、このデータセットの使用例を示す。
我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
論文 参考訳(メタデータ) (2022-04-29T14:44:52Z) - Code-free development and deployment of deep segmentation models for
digital pathology [0.7812927717615301]
本稿では,フリーユースなオープンソースソフトウェア(QuPath,DeepMIB,FastPathology)を応用した,深層学習型セグメンテーションモデルの構築と展開のためのコードフリーパイプラインを提案する。
140個のhematoxylin-eosin (HE)-stainedと111個のCD3免疫染色型大腸生検WSIからなる251個のアノテートWSIのデータセットを開発した。
病理学レベルのセグメンテーション精度と臨床ランタイム性能を実証し、プログラミング経験のない病理学者が最先端セグメンテーションソリューションを作成できることを示す。
論文 参考訳(メタデータ) (2021-11-16T13:08:05Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。