論文の概要: Quilt-1M: One Million Image-Text Pairs for Histopathology
- arxiv url: http://arxiv.org/abs/2306.11207v3
- Date: Fri, 27 Oct 2023 23:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:14:32.782065
- Title: Quilt-1M: One Million Image-Text Pairs for Histopathology
- Title(参考訳): quilt-1m:病理組織学のための100万の画像テキストペア
- Authors: Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo,
Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay
Krishna, Linda Shapiro
- Abstract要約: われわれはYouTubeを使って802,144ドルの画像とテキストのペアからなるビジョン言語データセットをキュレートしている。
我々はQUILTをTwitter、研究論文、インターネットなど他の情報源のデータセットと組み合わせてQUILT-1Mを作成します。
本モデルでは,新しい病理像の分類を行うため,ゼロショットとリニアプローブの両タスクにおいて最先端のモデルより優れる。
- 参考スコア(独自算出の注目度): 10.263853626151297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent accelerations in multi-modal applications have been made possible with
the plethora of image and text data available online. However, the scarcity of
analogous data in the medical field, specifically in histopathology, has slowed
comparable progress. To enable similar representation learning for
histopathology, we turn to YouTube, an untapped resource of videos, offering
$1,087$ hours of valuable educational histopathology videos from expert
clinicians. From YouTube, we curate QUILT: a large-scale vision-language
dataset consisting of $802, 144$ image and text pairs. QUILT was automatically
curated using a mixture of models, including large language models, handcrafted
algorithms, human knowledge databases, and automatic speech recognition. In
comparison, the most comprehensive datasets curated for histopathology amass
only around $200$K samples. We combine QUILT with datasets from other sources,
including Twitter, research papers, and the internet in general, to create an
even larger dataset: QUILT-1M, with $1$M paired image-text samples, marking it
as the largest vision-language histopathology dataset to date. We demonstrate
the value of QUILT-1M by fine-tuning a pre-trained CLIP model. Our model
outperforms state-of-the-art models on both zero-shot and linear probing tasks
for classifying new histopathology images across $13$ diverse patch-level
datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.
- Abstract(参考訳): マルチモーダルアプリケーションにおける最近の加速は、画像データとテキストデータをオンラインで利用できることで実現されている。
しかし、医学分野、特に病理学における類似データの不足は、同等の進歩を遅らせている。
同様の組織病理学の表現学習を可能にするために、私たちはビデオの未編集リソースであるyoutubeに目を向け、専門家臨床医からの貴重な教育的病理学ビデオ1087ドルを提供した。
YouTube から QUILT: 802,144 ドルの画像とテキストのペアからなる大規模ビジョン言語データセットをキュレートする。
QUILTは、大きな言語モデル、手作りアルゴリズム、人間の知識データベース、音声認識など、様々なモデルを用いて自動的にキュレートされた。
比較して、最も包括的なデータセットは、約200ドルのサンプルしか収集されなかった。
私たちはQUILTを、Twitter、研究論文、インターネットなど、他のソースからのデータセットと組み合わせて、さらに大きなデータセットを作成する。
プレトレーニングCLIPモデルの微調整によりQUILT-1Mの値を示す。
我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos [11.913023311613884]
そこで本研究では,病理組織特異的な命令問合せ/問合せの大規模データセットであるQuilt-Instructを紹介した。
Quilt-Instructを使ってQult-LLaVAをトレーニングします。
論文 参考訳(メタデータ) (2023-12-07T23:16:37Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Learning from few examples: Classifying sex from retinal images via deep
learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。
約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。
これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文 参考訳(メタデータ) (2022-07-20T02:47:29Z) - HistoKT: Cross Knowledge Transfer in Computational Pathology [31.14107299224401]
CPath (Computer pathology) におけるよく注釈付けられたデータセットの欠如は、医学画像の分類にディープラーニング技術を適用することを妨げている。
ほとんどのトランスファーラーニング研究はモデル中心のアプローチに従っており、ネットワークパラメータをチューニングして、少数のデータセットでのトランスファー結果を改善する。
論文 参考訳(メタデータ) (2022-01-27T00:34:19Z) - Self supervised contrastive learning for digital histopathology [0.0]
我々はSimCLRと呼ばれる対照的な自己教師型学習手法を用いて、自然シーン画像の最先端結果を得た。
異なる種類の染色特性と分解特性とを組み合わせることで,学習した特徴の質が向上することがわかった。
学習した機能に基づいてトレーニングされた線形分類器は、デジタル病理学データセットで事前トレーニングされたネットワークが、ImageNet事前トレーニングされたネットワークよりも優れたパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2020-11-27T19:18:45Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。