論文の概要: SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
- arxiv url: http://arxiv.org/abs/2410.11761v1
- Date: Tue, 15 Oct 2024 16:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:45.049075
- Title: SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
- Title(参考訳): SlideChat:全スライド画像理解のための大規模視覚言語アシスタント
- Authors: Ying Chen, Guoan Wang, Yuanfeng Ji, Yanjun Li, Jin Ye, Tianbin Li, Bin Zhang, Nana Pei, Rongshan Yu, Yu Qiao, Junjun He,
- Abstract要約: ギガピクセル全体の画像を理解可能な最初の視覚言語アシスタントであるSlideChatを紹介する。
その開発をサポートするために、WSIのための最大のインストラクションフォローデータセットであるSlideInstructionを作成しました。
一般的なMLLMと専門的なMLLMと比較して、SlideChatは22のタスクのうち18のタスクで最先端のパフォーマンスを達成する特別な能力を示している。
- 参考スコア(独自算出の注目度): 29.613904338961486
- License:
- Abstract: Despite the progress made by multimodal large language models (MLLMs) in computational pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the gigapixel scale of whole slide images (WSIs) pose significant developmental challenges. In this paper, we present SlideChat, the first vision-language assistant capable of understanding gigapixel whole-slide images, exhibiting excellent multimodal conversational capability and response complex instruction across diverse pathology scenarios. To support its development, we created SlideInstruction, the largest instruction-following dataset for WSIs consisting of 4.2K WSI captions and 176K VQA pairs with multiple categories. Furthermore, we propose SlideBench, a multimodal benchmark that incorporates captioning and VQA tasks to assess SlideChat's capabilities in varied clinical settings such as microscopy, diagnosis. Compared to both general and specialized MLLMs, SlideChat exhibits exceptional capabilities achieving state-of-the-art performance on 18 of 22 tasks. For example, it achieved an overall accuracy of 81.17% on SlideBench-VQA (TCGA), and 54.15% on SlideBench-VQA (BCNB). We will fully release SlideChat, SlideInstruction and SlideBench as open-source resources to facilitate research and development in computational pathology.
- Abstract(参考訳): 計算病理学におけるマルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、それらはパッチレベルの分析に重点を置いており、スライダーレベルでは必須の文脈情報が欠落している。
大規模命令データセットの欠如と、スライド画像全体(WSI)のギガピクセルスケールは、大きな発展上の課題を招いている。
本稿では,ギガピクセル全体の画像を理解可能な最初の視覚言語アシスタントであるSlideChatについて述べる。
開発したSlideInstructionは,複数のカテゴリを持つ4.2K WSIキャプションと176K VQAペアで構成された,WSI用最大命令フォローデータセットである。
さらに,顕微鏡や診断などの様々な臨床環境におけるSlideChatの機能を評価するために,キャプションとVQAタスクを組み込んだマルチモーダルベンチマークであるSlideBenchを提案する。
一般的なMLLMと専門的なMLLMと比較して、SlideChatは22のタスクのうち18のタスクで最先端のパフォーマンスを達成する特別な能力を示している。
例えば、SlideBench-VQA(TCGA)では81.17%、SlideBench-VQA(BCNB)では54.15%の精度を達成した。
われわれはSlideChat、SlideInstruction、SlideBenchをオープンソースのリソースとして完全にリリースし、計算病理学の研究と開発を促進する。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Multistain Pretraining for Slide Representation Learning in Pathology [7.564260323883271]
自己教師付き学習モデルは、全スライド画像の普遍的および伝達可能な表現を学習することができる。
スライド表現学習のためのマルチモーダル事前学習戦略であるMadeleineを導入する。
マドレーヌが様々な下流評価で学んだスライド表現の質を実証する。
論文 参考訳(メタデータ) (2024-08-05T22:59:50Z) - WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering [6.315841446240698]
生成的視覚的質問応答により,スライド画像全体(WSI)を解釈する新しい枠組みを提案する。
WSI-VQAは、様々なスライドレベルのタスクを質問応答パターンで記述することで、普遍性を示す。
8672のスライドレベル質問応答対と977のWSIを含むWSI-VQAデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-08T04:37:32Z) - OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding [34.17871202332497]
OmChatは、長いコンテキストとビデオ理解タスクをうまく扱うように設計されたモデルである。
ダイナミックな視覚符号化プロセスを使用して、様々な解像度の画像を効果的に処理し、さまざまな画質の細部をキャプチャする。
OmChatは、最大512Kのコンテキスト長をサポートすることで、複数の画像やビデオを含むタスクにおいて、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-07-06T02:16:10Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。