Fugu-MT 論文翻訳(概要): Quilt-1M: One Million Image-Text Pairs for Histopathology

論文の概要: Quilt-1M: One Million Image-Text Pairs for Histopathology

arxiv url: http://arxiv.org/abs/2306.11207v3
Date: Fri, 27 Oct 2023 23:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 21:14:32.782065
Title: Quilt-1M: One Million Image-Text Pairs for Histopathology
Title（参考訳）: quilt-1m:病理組織学のための100万の画像テキストペア
Authors: Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro
Abstract要約: われわれはYouTubeを使って802,144ドルの画像とテキストのペアからなるビジョン言語データセットをキュレートしている。我々はQUILTをTwitter、研究論文、インターネットなど他の情報源のデータセットと組み合わせてQUILT-1Mを作成します。本モデルでは,新しい病理像の分類を行うため,ゼロショットとリニアプローブの両タスクにおいて最先端のモデルより優れる。
参考スコア（独自算出の注目度）: 10.263853626151297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has slowed comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate QUILT: a large-scale vision-language dataset consisting of $802, 144$ image and text pairs. QUILT was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine QUILT with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: QUILT-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of QUILT-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.
Abstract（参考訳）: マルチモーダルアプリケーションにおける最近の加速は、画像データとテキストデータをオンラインで利用できることで実現されている。しかし、医学分野、特に病理学における類似データの不足は、同等の進歩を遅らせている。同様の組織病理学の表現学習を可能にするために、私たちはビデオの未編集リソースであるyoutubeに目を向け、専門家臨床医からの貴重な教育的病理学ビデオ1087ドルを提供した。 YouTube から QUILT: 802,144 ドルの画像とテキストのペアからなる大規模ビジョン言語データセットをキュレートする。 QUILTは、大きな言語モデル、手作りアルゴリズム、人間の知識データベース、音声認識など、様々なモデルを用いて自動的にキュレートされた。比較して、最も包括的なデータセットは、約200ドルのサンプルしか収集されなかった。私たちはQUILTを、Twitter、研究論文、インターネットなど、他のソースからのデータセットと組み合わせて、さらに大きなデータセットを作成する。プレトレーニングCLIPモデルの微調整によりQUILT-1Mの値を示す。我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。

関連論文リスト

Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation [13.362188283113788]
医用画像分析の強力なパラダイムとして、視覚言語による事前訓練が登場している。マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T04:55:54Z)
MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities [89.81463562506637]
医用画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを紹介する。対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
論文参考訳（メタデータ） (2025-11-25T18:59:53Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
Multimodal Medical Disease Classification with LLaMA II [0.14999444543328289]
臨床報告に関連付けられた2次元胸部X線によるOpenIのテキストイメージペアデータセットを用いて検討した。我々の焦点は、医療データセットから抽出したテキストと視覚情報を融合するための融合手法である。新たに導入されたマルチモーダルアーキテクチャは、少ない労力で他のマルチモーダルデータセットに適用することができ、さらなる研究に容易に適応することができる。
論文参考訳（メタデータ） (2024-12-02T09:18:07Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
PathGen-1.6M: 1.6 Million Pathology Image-text Pairs Generation through Multi-agent Collaboration [14.979275480422213]
CLIPのような視覚言語モデル(VLM)は病理学に大きな注目を集めている。病理学をトレーニングするための現在の取り組みは、PubMed、YouTube、Twitterなどのプラットフォームからの病理画像テキストペアに依存している。 TCGAのような大規模WSIデータセットを利用して、多数の高品質な画像パッチを抽出する。
論文参考訳（メタデータ） (2024-06-28T19:18:09Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。最初はFlyTracingという名前のデータセットを構築しました。本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-01-05T19:45:12Z)
WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images [5.960501267687475]
スライド画像全体から病理報告を生成する方法について検討する。私たちは、最大のWSIテキストデータセット(PathText)をキュレートしました。モデル終端では、多重インスタンス生成モデル(MI-Gen)を提案する。
論文参考訳（メタデータ） (2023-11-27T05:05:41Z)
Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。 CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。 13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-07-24T16:13:43Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。 AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文参考訳（メタデータ） (2023-03-01T23:37:45Z)
Learning from few examples: Classifying sex from retinal images via deep learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文参考訳（メタデータ） (2022-07-20T02:47:29Z)
HistoKT: Cross Knowledge Transfer in Computational Pathology [31.14107299224401]
CPath (Computer pathology) におけるよく注釈付けられたデータセットの欠如は、医学画像の分類にディープラーニング技術を適用することを妨げている。ほとんどのトランスファーラーニング研究はモデル中心のアプローチに従っており、ネットワークパラメータをチューニングして、少数のデータセットでのトランスファー結果を改善する。
論文参考訳（メタデータ） (2022-01-27T00:34:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。