論文の概要: PA-LLaVA: A Large Language-Vision Assistant for Human Pathology Image Understanding
- arxiv url: http://arxiv.org/abs/2408.09530v1
- Date: Sun, 18 Aug 2024 16:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:24:47.967528
- Title: PA-LLaVA: A Large Language-Vision Assistant for Human Pathology Image Understanding
- Title(参考訳): PA-LLaVA:ヒト病理画像理解のための大規模言語ビジョンアシスタント
- Authors: Dawei Dai, Yuanhui Zhang, Long Xu, Qianlan Yang, Xiaojing Shen, Shuyin Xia, Guoyin Wang,
- Abstract要約: 病理画像理解のためのドメイン固有大規模言語ビジョンアシスタント(PA-LLaVA)を開発した。
同様のスケールのマルチモーダルモデルにおいて,本モデルは最高の総合性能を達成した。
- 参考スコア(独自算出の注目度): 15.045860433809546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The previous advancements in pathology image understanding primarily involved developing models tailored to specific tasks. Recent studies has demonstrated that the large vision-language model can enhance the performance of various downstream tasks in medical image understanding. In this study, we developed a domain-specific large language-vision assistant (PA-LLaVA) for pathology image understanding. Specifically, (1) we first construct a human pathology image-text dataset by cleaning the public medical image-text data for domain-specific alignment; (2) Using the proposed image-text data, we first train a pathology language-image pretraining (PLIP) model as the specialized visual encoder for pathology image, and then we developed scale-invariant connector to avoid the information loss caused by image scaling; (3) We adopt two-stage learning to train PA-LLaVA, first stage for domain alignment, and second stage for end to end visual question \& answering (VQA) task. In experiments, we evaluate our PA-LLaVA on both supervised and zero-shot VQA datasets, our model achieved the best overall performance among multimodal models of similar scale. The ablation experiments also confirmed the effectiveness of our design. We posit that our PA-LLaVA model and the datasets presented in this work can promote research in field of computational pathology. All codes are available at: https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA}{https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA
- Abstract(参考訳): 病理画像理解のこれまでの進歩は、主に特定のタスクに適したモデルの開発であった。
近年の研究では、医用画像理解において、大きな視覚言語モデルにより、下流タスクのパフォーマンスが向上することが示されている。
本研究では,病理画像理解のためのドメイン固有大規模言語ビジョンアシスタント(PA-LLaVA)を開発した。
具体的には、(1)パブリックな医用画像テキストデータをドメイン固有のアライメントのためにクリーニングすることで、まず人間の病理画像テキストデータセットを構築し、(2)提案した画像テキストデータを用いて、まず、病理画像の専用ビジュアルエンコーダとして病理言語画像事前訓練(PLIP)モデルを訓練し、次いで、画像スケーリングによる情報損失を回避するためにスケール不変コネクタを開発し、(3)PA-LLaVA、ドメインアライメントの第1ステージ、および第2ステージの視覚的問合せ(VQA)タスクに2段階の学習を適用した。
実験では、教師付きVQAデータセットとゼロショットVQAデータセットの両方でPA-LLaVAを評価し、同様のスケールのマルチモーダルモデルで最高の総合性能を達成した。
アブレーション実験により,我々の設計の有効性が確認された。
PA-LLaVAモデルと本研究で提示したデータセットは,計算病理学の分野での研究を促進することができると仮定する。
https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA}{https://github.com/ddw2AIGROUP2CQUPT/PA-LLaVA
関連論文リスト
- HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。
モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文 参考訳(メタデータ) (2024-08-07T07:12:52Z) - Hibou: A Family of Foundational Vision Transformers for Pathology [0.0]
コンピュータアルゴリズムによる解析のためにガラススライドを高解像度のデジタル画像に変換するデジタル病理学は、自動画像解析と大規模データ処理によって、診断精度、一貫性、効率を向上させることにより、分野に革命をもたらす。
本稿では,組織の種類や染色技術を表す100万枚以上のスライド画像(WSI)のプロプライエタリなデータセット上で,DINOv2フレームワークを用いてヒブーBとヒブーLの2つのモデル変異体を事前学習する。
我々の事前訓練されたモデルは、パッチレベルとスライドレベルの両方のベンチマークにおいて、既存のベンチマークを上回る優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-07T16:45:53Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Overcoming Dimensional Collapse in Self-supervised Contrastive Learning
for Medical Image Segmentation [2.6764957223405657]
医用画像解析分野へのコントラスト学習の適用について検討する。
以上の結果から,最先端のコントラスト学習手法であるMoCo v2は,医用画像に適用すると次元的崩壊に遭遇することが明らかとなった。
これを解決するために,局所的な特徴学習と特徴デコレーションという2つの重要な貢献を提案する。
論文 参考訳(メタデータ) (2024-02-22T15:02:13Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis [42.917164607812886]
ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。
BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
論文 参考訳(メタデータ) (2021-08-10T21:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。