Fugu-MT 論文翻訳(概要): Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

論文の概要: Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos

arxiv url: http://arxiv.org/abs/2312.04746v1
Date: Thu, 7 Dec 2023 23:16:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 16:32:01.926717
Title: Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos
Title（参考訳）: Quilt-LLaVA: オープンソースの病理ビデオから局所的物語を抽出した視覚的指導チューニング
Authors: Mehmet Saygin Seyfioglu, Wisdom O. Ikezogwo, Fatemeh Ghezloo, Ranjay Krishna, Linda Shapiro
Abstract要約: そこで本研究では,107,131の病理組織学的特異性問合せ/問合せの大規模データセットであるQuilt-Instructを紹介した。 Quilt-Instructを使ってQult-LLaVAをトレーニングします。
参考スコア（独自算出の注目度）: 12.780838861124941
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The gigapixel scale of whole slide images (WSIs) poses a challenge for histopathology multi-modal chatbots, requiring a global WSI analysis for diagnosis, compounding evidence from different WSI patches. Current visual instruction datasets, generated through large language models, focus on creating question/answer pairs for individual image patches, which may lack diagnostic capacity on their own in histopathology, further complicated by the absence of spatial grounding in histopathology image captions. To bridge this gap, we introduce Quilt-Instruct, a large-scale dataset of 107,131 histopathology-specific instruction question/answer pairs, that is collected by leveraging educational histopathology videos from YouTube, which provides spatial localization of captions by automatically extracting narrators' cursor movements. In addition, we provide contextual reasoning by extracting diagnosis and supporting facts from the entire video content to guide the extrapolative reasoning of GPT-4. Using Quilt-Instruct, we train Quilt-LLaVA, which can reason beyond the given single image patch, enabling diagnostic reasoning and the capability of spatial awareness. To evaluate Quilt-LLaVA, we propose a comprehensive evaluation dataset created from 985 images and 1283 human-generated question-answers. We also thoroughly evaluate Quilt-LLaVA using public histopathology datasets, where Quilt-LLaVA significantly outperforms SOTA by over 10% on relative GPT-4 score and 4% and 9% on open and closed set VQA. Our code, data, and model are publicly available at quilt-llava.github.io.
Abstract（参考訳）: スライド画像全体(WSI)のギガピクセルスケールは、病理組織学的マルチモーダルチャットボットにとって課題であり、診断にはグローバルなWSI分析が必要である。現在のビジュアルインストラクションデータセットは、大きな言語モデルを通じて生成され、個々の画像パッチに対する質問/回答ペアの作成に焦点を当てている。このギャップを埋めるために,YouTube の教育病理ビデオを利用して収集した 107,131 個の病理組織特異的指導質問/回答ペアの大規模データセットである Quilt-Instruct を導入し,ナレーターのカーソル運動を自動的に抽出してキャプションの空間的局所化を実現する。さらに,映像コンテンツ全体から診断と事実を抽出して文脈推論を行い,GPT-4の補外的推論を導出する。 Quilt-Instructを使ってQuilt-LLaVAを訓練し、与えられた単一イメージパッチを越え、診断的推論と空間認識能力を実現する。 Quilt-LLaVAを評価するために,985の画像と1283人の質問回答から作成した包括的評価データセットを提案する。また,公共の病理組織学的データセットを用いてQuilt-LLaVAを徹底的に評価し,相対的なGPT-4スコアではQuilt-LLaVAが10%以上,開集合VQAでは4%,クローズド集合VQAでは9%以上,SOTAを有意に上回った。コード、データ、モデルはquilt-llava.github.ioで公開されている。

関連論文リスト

VideoPath-LLaVA: Pathology Diagnostic Reasoning Through Video Instruction Tuning [2.6954348706500766]
計算病理学における最初の大規模マルチモーダルモデル(LMM)であるVideoPath-LLaVAを提案する。 3つの異なるイメージシナリオ、単一パッチイメージ、自動抽出されたクリップ、手動によるビデオ病理画像を統合する。 VideoPath-LLaVAは、詳細な組織学的記述を生成し、確定的なサインアウト診断を行うことにより、診断的推論を伴う視覚的物語を橋渡しする。
論文参考訳（メタデータ） (2025-05-07T07:41:19Z)
From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文参考訳（メタデータ） (2025-03-14T20:15:04Z)
Semantic Segmentation Based Quality Control of Histopathology Whole Slide Images [2.953447779233234]
We developed a software pipeline for quality control (QC) of histopathology whole slide images (WSIs)。異なるレベルのぼかし、組織領域、組織折り、ペンマークなど、さまざまな領域を区分する。 TCGAは、28の臓器から11,000以上の病理像を含むWSIデータセットとして最大である。
論文参考訳（メタデータ） (2024-10-04T10:03:04Z)
PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文参考訳（メタデータ） (2024-06-27T23:43:36Z)
A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文参考訳（メタデータ） (2024-02-09T05:05:28Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文参考訳（メタデータ） (2023-11-27T05:05:41Z)
Quilt-1M: One Million Image-Text Pairs for Histopathology [10.263853626151297]
われわれはYouTubeを使って802,144ドルの画像とテキストのペアからなるビジョン言語データセットをキュレートしている。我々はQUILTをTwitter、研究論文、インターネットなど他の情報源のデータセットと組み合わせてQUILT-1Mを作成します。本モデルでは,新しい病理像の分類を行うため,ゼロショットとリニアプローブの両タスクにおいて最先端のモデルより優れる。
論文参考訳（メタデータ） (2023-06-20T00:14:47Z)
Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文参考訳（メタデータ） (2022-11-29T23:47:56Z)
Towards Automatic Parsing of Structured Visual Content through the Use of Synthetic Data [65.68384124394699]
本研究では,構造化ビジュアルコンテンツ(Structured Visual Content, SVC)を画像と地上の真実の形で含む合成データセットを提案する。本稿では、SVC画像からグラフ表現を自動的に抽出するアプリケーションによる、このデータセットの使用例を示す。我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
論文参考訳（メタデータ） (2022-04-29T14:44:52Z)
Code-free development and deployment of deep segmentation models for digital pathology [0.7812927717615301]
本稿では,フリーユースなオープンソースソフトウェア(QuPath,DeepMIB,FastPathology)を応用した,深層学習型セグメンテーションモデルの構築と展開のためのコードフリーパイプラインを提案する。 140個のhematoxylin-eosin (HE)-stainedと111個のCD3免疫染色型大腸生検WSIからなる251個のアノテートWSIのデータセットを開発した。病理学レベルのセグメンテーション精度と臨床ランタイム性能を実証し、プログラミング経験のない病理学者が最先端セグメンテーションソリューションを作成できることを示す。
論文参考訳（メタデータ） (2021-11-16T13:08:05Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Learning Contextualized Document Representations for Healthcare Answer Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-02-03T15:47:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。