論文の概要: Focus on Texture: Rethinking Pre-training in Masked Autoencoders for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2507.10869v1
- Date: Tue, 15 Jul 2025 00:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.925187
- Title: Focus on Texture: Rethinking Pre-training in Masked Autoencoders for Medical Image Classification
- Title(参考訳): テクスチャーに焦点をあてる:医療画像分類のためのマスクオートエンコーダの事前学習再考
- Authors: Chetan Madan, Aarjav Satia, Soumen Basu, Pankaj Gupta, Usha Dutta, Chetan Arora,
- Abstract要約: Masked Autoencoders (MAEs) は自然画像における自己教師型表現学習の主流の戦略として登場した。
マッチング型GLCMに基づく再構成損失を用いた新しい事前学習フレームワークGLCM-MAEを提案する。
GLCM-MAEは4つのタスクで現在の最先端よりも優れています。
- 参考スコア(独自算出の注目度): 6.641920678512381
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Masked Autoencoders (MAEs) have emerged as a dominant strategy for self-supervised representation learning in natural images, where models are pre-trained to reconstruct masked patches with a pixel-wise mean squared error (MSE) between original and reconstructed RGB values as the loss. We observe that MSE encourages blurred image re-construction, but still works for natural images as it preserves dominant edges. However, in medical imaging, when the texture cues are more important for classification of a visual abnormality, the strategy fails. Taking inspiration from Gray Level Co-occurrence Matrix (GLCM) feature in Radiomics studies, we propose a novel MAE based pre-training framework, GLCM-MAE, using reconstruction loss based on matching GLCM. GLCM captures intensity and spatial relationships in an image, hence proposed loss helps preserve morphological features. Further, we propose a novel formulation to convert matching GLCM matrices into a differentiable loss function. We demonstrate that unsupervised pre-training on medical images with the proposed GLCM loss improves representations for downstream tasks. GLCM-MAE outperforms the current state-of-the-art across four tasks - gallbladder cancer detection from ultrasound images by 2.1%, breast cancer detection from ultrasound by 3.1%, pneumonia detection from x-rays by 0.5%, and COVID detection from CT by 0.6%. Source code and pre-trained models are available at: https://github.com/ChetanMadan/GLCM-MAE.
- Abstract(参考訳): Masked Autoencoders (MAEs) は自然画像における自己教師型表現学習の主流戦略として現れており、損失として元のRGB値と再構成されたRGB値の間の画素平均2乗誤差(MSE)を用いてマスクパッチの再構成を事前訓練している。
MSEはぼやけた画像の再構築を奨励するが、支配的なエッジを保ちながら自然画像のためにも有効である。
しかし、医用画像では、視覚異常の分類においてテクスチャ・キューがより重要である場合、その戦略は失敗する。
放射能研究におけるGray Level Co-occurrence Matrix (GLCM) の機能から着想を得て,新しいMAEベースの事前学習フレームワーク GLCM-MAE を提案する。
GLCMは画像中の強度と空間的関係をキャプチャするので、提案された損失は形態的特徴の保存に役立つ。
さらに,一致したGLCM行列を微分可能な損失関数に変換する新しい定式化を提案する。
提案したGLCM損失による医用画像の教師なし事前トレーニングは、下流タスクの表現を改善することを実証する。
GLCM-MAEは、超音波画像からの胆嚢癌検出の2.1%、超音波からの乳がん検出の3.1%、X線からの肺炎検出の0.5%、CTからの新型コロナウイルス検出の0.6%の4つのタスクで、現在の最先端技術よりも優れている。
ソースコードと事前トレーニングされたモデルは、https://github.com/ChetanMadan/GLCM-MAE.comで入手できる。
関連論文リスト
- Generative AI: A Pix2pix-GAN-Based Machine Learning Approach for Robust and Efficient Lung Segmentation [0.7614628596146602]
本研究では, Pix2pix Generative Adversarial Network (GAN) を用いて, CXR画像から肺の異常を抽出する深層学習フレームワークを開発した。
フレームワークの画像処理と拡張技術は、U-Netにインスパイアされたジェネレータ-ディスクリミネータアーキテクチャに適切に組み込まれている。
論文 参考訳(メタデータ) (2024-12-14T13:12:09Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Cross-modulated Few-shot Image Generation for Colorectal Tissue
Classification [58.147396879490124]
XM-GANと名づけられた少数ショット生成法は,1塩基と1対の参照組織像を入力とし,高品質で多様な画像を生成する。
我々の知る限りでは、大腸組織像の少数ショット生成を最初に調査した人物である。
論文 参考訳(メタデータ) (2023-04-04T17:50:30Z) - One Sample Diffusion Model in Projection Domain for Low-Dose CT Imaging [10.797632196651731]
低線量CTは臨床応用における放射線リスクの低減に重要な役割を担っている。
ディープラーニングの急速な開発と幅広い応用により、低線量CTイメージングアルゴリズムの開発に向けた新たな方向性がもたらされた。
低用量CT再構成のための投影領域における完全に教師なし1サンプル拡散モデル(OSDM)を提案する。
以上の結果から,OSDMはアーティファクトを低減し,画像品質を維持するための実用的で効果的なモデルであることが証明された。
論文 参考訳(メタデータ) (2022-12-07T13:39:23Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Negligible effect of brain MRI data preprocessing for tumor segmentation [36.89606202543839]
我々は3つの公開データセットの実験を行い、ディープニューラルネットワークにおける異なる前処理ステップの効果を評価する。
その結果、最も一般的な標準化手順は、ネットワーク性能に何の価値も与えないことが示されている。
画像の規格化に伴う信号分散の低減のため,画像強度正規化手法はモデル精度に寄与しない。
論文 参考訳(メタデータ) (2022-04-11T17:29:36Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Zero-Shot Domain Adaptation in CT Segmentation by Filtered Back
Projection Augmentation [0.1197985185770095]
ドメインシフトは、医療コンピュータビジョンにおける最も健全な課題の1つです。
コンピュータ断層撮影(CT)画像の再現過程における異なる畳み込みカーネルによる変動について検討する。
異なるカーネルによる再構成を模擬したシングラム空間におけるCT画像の簡易かつ驚くほど効率的な拡張手法であるフィルタバックプロジェクション拡張(FBPAug)を提案する。
論文 参考訳(メタデータ) (2021-07-18T21:46:49Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。