論文の概要: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for
Histopathology Images
- arxiv url: http://arxiv.org/abs/2306.07831v1
- Date: Tue, 13 Jun 2023 15:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:13:09.947126
- Title: Visual Language Pretrained Multiple Instance Zero-Shot Transfer for
Histopathology Images
- Title(参考訳): 病理組織像に対する視覚言語予知型マルチインスタンスゼロショットトランスファー
- Authors: Ming Y. Lu, Bowen Chen, Andrew Zhang, Drew F.K. Williamson, Richard J.
Chen, Tong Ding, Long Phi Le, Yung-Sung Chuang, Faisal Mahmood
- Abstract要約: 我々は,ギガピクセルの病理組織像全体に対して,コントラスト整列画像とテキストモデルのゼロショット転送能力を開放するフレームワークMI-Zeroを提案する。
MI-Zeroは、複数のインスタンス学習の枠組みの下でゼロショット転送を再構成し、非常に大きな画像に対する推論の計算課題を克服する。
- 参考スコア(独自算出の注目度): 8.612889476601822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contrastive visual language pretraining has emerged as a powerful method for
either training new language-aware image encoders or augmenting existing
pretrained models with zero-shot visual recognition capabilities. However,
existing works typically train on large datasets of image-text pairs and have
been designed to perform downstream tasks involving only small to medium
sized-images, neither of which are applicable to the emerging field of
computational pathology where there are limited publicly available paired
image-text datasets and each image can span up to 100,000 x 100,000 pixels. In
this paper we present MI-Zero, a simple and intuitive framework for unleashing
the zero-shot transfer capabilities of contrastively aligned image and text
models on gigapixel histopathology whole slide images, enabling multiple
downstream diagnostic tasks to be carried out by pretrained encoders without
requiring any additional labels. MI-Zero reformulates zero-shot transfer under
the framework of multiple instance learning to overcome the computational
challenge of inference on extremely large images. We used over 550k pathology
reports and other available in-domain text corpora to pre-train our text
encoder. By effectively leveraging strong pre-trained encoders, our best model
pretrained on over 33k histopathology image-caption pairs achieves an average
median zero-shot accuracy of 70.2% across three different real-world cancer
subtyping tasks. Our code is available at:
https://github.com/mahmoodlab/MI-Zero.
- Abstract(参考訳): 対照的な視覚言語事前訓練は、新しい言語対応画像エンコーダのトレーニングや、ゼロショット視覚認識機能を持つ既存の事前学習モデルの拡張に強力な方法として登場した。
しかし、既存の研究は通常、画像テキストペアの大規模なデータセットをトレーニングし、小型から中規模の画像のみを含む下流タスクを実行するように設計されており、これらは、一般に利用可能なペア画像テキストデータセットが限られており、各画像が最大10万×10万ピクセルに及ぶような、新しい計算病理分野には適用されない。
本稿では,ギガピクセルの病理組織像全体において,コントラスト的にアライメントされた画像とテキストモデルのゼロショット転送機能を解き放つための簡易かつ直感的なフレームワークであるmi-zeroを提案する。
mi-zeroは多重インスタンス学習の枠組みの下でゼロショット転送を再構成し、超大規模画像における推論の計算上の課題を克服する。
テキストエンコーダの事前トレーニングには,550k以上の病理報告やその他のドメイン内テキストコーパスを使用しました。
強いトレーニング済みエンコーダを効果的に活用することにより、33k以上の病理組織学的画像キャプチャーペアで事前訓練された最良のモデルは、3つの異なる実世界の癌サブタイプタスクで平均70.2%のゼロショット精度を達成する。
コードはhttps://github.com/mahmoodlab/mi-zero。
関連論文リスト
- Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Data-Efficient Language-Supervised Zero-Shot Learning with
Self-Distillation [23.631184498984933]
自然言語は、監督された「ゴールド」ラベルよりも広く、より豊かな監督源であることが示されている。
ソフトラベルを用いてノイズの多い画像とテキストのペアから学習する,データ効率の高いコントラスト蒸留法を提案する。
我々のモデルは事前訓練された画像と文エンコーダから知識を伝達し,CLIPよりも133倍小さい3M画像テキストペアで高い性能を達成する。
論文 参考訳(メタデータ) (2021-04-18T19:55:31Z) - Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays [10.398175542736285]
混合データ入力から学習できる画像テキスト事前学習フレームワークを紹介します。
混合データ入力における事前学習の可能性を示す。
また、3つの胸部x線アプリケーションに事前訓練されたモデルを適用する利点についても述べる。
論文 参考訳(メタデータ) (2021-03-30T01:48:46Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。