論文の概要: Quilt-1M: One Million Image-Text Pairs for Histopathology
- arxiv url: http://arxiv.org/abs/2306.11207v4
- Date: Mon, 13 Jan 2025 18:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:37.873269
- Title: Quilt-1M: One Million Image-Text Pairs for Histopathology
- Title(参考訳): Quilt-1M: 病理組織学のための100万枚の画像テキストペア
- Authors: Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro,
- Abstract要約: われわれはYouTubeを使って802,144ドルの画像とテキストのペアからなるビジョン言語データセットをキュレートしている。
我々はQUILTをTwitter、研究論文、インターネットなど他の情報源のデータセットと組み合わせてQUILT-1Mを作成します。
本モデルでは,新しい病理像の分類を行うため,ゼロショットとリニアプローブの両タスクにおいて最先端のモデルより優れる。
- 参考スコア(独自算出の注目度): 9.891861444518605
- License:
- Abstract: Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has slowed comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate QUILT: a large-scale vision-language dataset consisting of $802, 144$ image and text pairs. QUILT was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine QUILT with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: QUILT-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of QUILT-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.
- Abstract(参考訳): マルチモーダルアプリケーションにおける最近の加速は、画像データやテキストデータをオンラインで利用できるようにすることで実現されている。
しかし、医学分野、特に病理学における類似データの不足は、同等の進歩を遅らせている。
同様の組織病理学の表現学習を可能にするために、私たちはYouTubeに目を向けた。
YouTube から QUILT: 802,144 ドルの画像とテキストのペアからなる大規模ビジョン言語データセットをキュレートする。
QUILTは、大きな言語モデル、手作りのアルゴリズム、人間の知識データベース、音声認識など、様々なモデルを用いて自動的にキュレートされた。
比較すると、最も包括的なデータセットは、約200ドル(約2万2000円)のサンプルしか収集されなかった。
私たちはQUILTを、Twitter、研究論文、インターネットなど、他のソースからのデータセットと組み合わせて、さらに大きなデータセットを作成する。
プレトレーニングCLIPモデルの微調整によりQUILT-1Mの値を示す。
我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration [14.979275480422213]
CLIPのような視覚言語モデル(VLM)は病理学に大きな注目を集めている。
病理学をトレーニングするための現在の取り組みは、PubMed、YouTube、Twitterなどのプラットフォームからの病理画像テキストペアに依存している。
TCGAのような大規模WSIデータセットを利用して、多数の高品質な画像パッチを抽出する。
論文 参考訳(メタデータ) (2024-06-28T19:18:09Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。
私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。
モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文 参考訳(メタデータ) (2023-11-27T05:05:41Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Learning from few examples: Classifying sex from retinal images via deep
learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。
約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。
これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文 参考訳(メタデータ) (2022-07-20T02:47:29Z) - HistoKT: Cross Knowledge Transfer in Computational Pathology [31.14107299224401]
CPath (Computer pathology) におけるよく注釈付けられたデータセットの欠如は、医学画像の分類にディープラーニング技術を適用することを妨げている。
ほとんどのトランスファーラーニング研究はモデル中心のアプローチに従っており、ネットワークパラメータをチューニングして、少数のデータセットでのトランスファー結果を改善する。
論文 参考訳(メタデータ) (2022-01-27T00:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。