論文の概要: Learning Nuclei Representations with Masked Image Modelling
- arxiv url: http://arxiv.org/abs/2306.17116v1
- Date: Thu, 29 Jun 2023 17:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:21:03.604716
- Title: Learning Nuclei Representations with Masked Image Modelling
- Title(参考訳): マスク画像モデリングによる核表現の学習
- Authors: Piotr W\'ojcik, Hussein Naji, Adrian Simon, Reinhard B\"uttner,
Katarzyna Bo\.zek
- Abstract要約: Masked Image Modelling (MIM) は強力な自己教師付き表現学習パラダイムである。
核レベルでのHemotoxylin & Eosin(H&E)染色画像のリッチな意味表現をMIMで捉える能力を示す。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked image modelling (MIM) is a powerful self-supervised representation
learning paradigm, whose potential has not been widely demonstrated in medical
image analysis. In this work, we show the capacity of MIM to capture rich
semantic representations of Haemotoxylin & Eosin (H&E)-stained images at the
nuclear level. Inspired by Bidirectional Encoder representation from Image
Transformers (BEiT), we split the images into smaller patches and generate
corresponding discrete visual tokens. In addition to the regular grid-based
patches, typically used in visual Transformers, we introduce patches of
individual cell nuclei. We propose positional encoding of the irregular
distribution of these structures within an image. We pre-train the model in a
self-supervised manner on H&E-stained whole-slide images of diffuse large
B-cell lymphoma, where cell nuclei have been segmented. The pre-training
objective is to recover the original discrete visual tokens of the masked image
on the one hand, and to reconstruct the visual tokens of the masked object
instances on the other. Coupling these two pre-training tasks allows us to
build powerful, context-aware representations of nuclei. Our model generalizes
well and can be fine-tuned on downstream classification tasks, achieving
improved cell classification accuracy on PanNuke dataset by more than 5%
compared to current instance segmentation methods.
- Abstract(参考訳): Masked Image Modelling (MIM)は、医用画像解析において広く実証されていない強力な自己教師型表現学習パラダイムである。
本研究では,haemotoxylin & eosin (h&e) の核レベルでの高精細な意味表現をとらえるmimの能力を示す。
画像変換器(BEiT)からの双方向エンコーダ表現にインスパイアされ、画像を小さなパッチに分割し、対応する個別の視覚トークンを生成する。
通常、視覚変換器で使用される格子ベースのパッチに加えて、個々の細胞核のパッチも導入する。
画像内におけるこれらの構造の不規則分布の位置エンコーディングを提案する。
細胞核が分節化されているびまん性大細胞型B細胞リンパ腫のH&E-stained whole-slide画像に対して,自己指導でモデルを事前訓練する。
事前学習の目的は、マスクされた画像のオリジナルの離散視覚トークンを回復し、他方のマスクされたオブジェクトインスタンスの視覚トークンを再構築することである。
これら2つの事前学習タスクを結合することで、核の強力なコンテキスト認識表現を構築することができる。
本モデルでは,PanNukeデータセット上のセル分類精度を現行のインスタンスセグメンテーション法と比較して5%以上向上させ,下流分類タスクを微調整することができる。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Cross-modal tumor segmentation using generative blending augmentation and self training [1.6440045168835438]
本稿では,新しいデータ拡張手法によって強化された従来の画像合成に基づくクロスモーダルセグメンテーション手法を提案する。
Generative Blending Augmentation (GBA)は、単一のトレーニング画像から代表的生成特徴を学習し、腫瘍の外観を現実的に多様化させる。
提案手法は,MICCAI CrossMoDA 2022 チャレンジの検証および試験段階において,前庭神経ショーノマ(VS)セグメンテーションにおいて第1位となった。
論文 参考訳(メタデータ) (2023-04-04T11:01:46Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。