論文の概要: Improving Representation of High-frequency Components for Medical Foundation Models
- arxiv url: http://arxiv.org/abs/2407.14651v1
- Date: Fri, 19 Jul 2024 20:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:33:49.319575
- Title: Improving Representation of High-frequency Components for Medical Foundation Models
- Title(参考訳): 医療ファウンデーションモデルにおける高周波成分表現の改善
- Authors: Yuetan Chu, Yilan Zhang, Zhongyi Han, Changchun Yang, Longxi Zhou, Gongning Luo, Xin Gao,
- Abstract要約: 我々は、周波数適応表現オートエンコーダ(Frepa)という新しい事前学習戦略を提案する。
Frepaはエンコーダに画像埋め込みにおける高周波成分を効果的に表現し保存することを奨励する。
そこで我々はFrepaを9つの医療モダリティにまたがって開発し、2D画像と3Dボリュームデータの両方に対して32の下流タスクで検証する。
- 参考スコア(独自算出の注目度): 14.156472300884948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have recently attracted significant attention for their impressive generalizability across diverse downstream tasks. However, these models are demonstrated to exhibit great limitations in representing high-frequency components and fine-grained details. In many medical imaging tasks, the precise representation of such information is crucial due to the inherently intricate anatomical structures, sub-visual features, and complex boundaries involved. Consequently, the limited representation of prevalent foundation models can result in significant performance degradation or even failure in these tasks. To address these challenges, we propose a novel pretraining strategy, named Frequency-advanced Representation Autoencoder (Frepa). Through high-frequency masking and low-frequency perturbation combined with adversarial learning, Frepa encourages the encoder to effectively represent and preserve high-frequency components in the image embeddings. Additionally, we introduce an innovative histogram-equalized image masking strategy, extending the Masked Autoencoder approach beyond ViT to other architectures such as Swin Transformer and convolutional networks. We develop Frepa across nine medical modalities and validate it on 32 downstream tasks for both 2D images and 3D volume data. Without fine-tuning, Frepa can outperform other self-supervised pretraining methods and, in some cases, even surpasses task-specific trained models. This improvement is particularly significant for tasks involving fine-grained details, such as achieving up to a +15% increase in DSC for retina vessel segmentation and a +7% increase in IoU for lung nodule detection. Further experiments quantitatively reveal that Frepa enables superior high-frequency representations and preservation in the embeddings, underscoring its potential for developing more generalized and universal medical image foundation models.
- Abstract(参考訳): ファンデーションモデルは、様々な下流タスクにまたがる顕著な一般化性に対して、近年大きな注目を集めている。
しかし、これらのモデルは高周波成分と微細な詳細を表現する上で大きな限界を示すことが示されている。
多くの医療画像のタスクにおいて、そのような情報の正確な表現は、本質的に複雑な解剖学的構造、サブ視覚的特徴、複雑な境界によって重要である。
その結果、一般的な基礎モデルの限定的な表現は、これらのタスクの大幅な性能低下や失敗をもたらす可能性がある。
これらの課題に対処するため、周波数適応型表現オートエンコーダ(Frepa)という新しい事前学習戦略を提案する。
高周波マスキングと低周波摂動と対向学習を組み合わせることで、Frepaはエンコーダに画像埋め込みにおける高周波成分を効果的に表現し保存することを奨励する。
さらに,Musked Autoencoder アプローチを ViT を超えて Swin Transformer や畳み込みネットワークなどの他のアーキテクチャに拡張する,革新的なヒストグラム等化画像マスキング戦略を導入する。
そこで我々はFrepaを9つの医療モダリティにまたがって開発し、2D画像と3Dボリュームデータの両方に対して32の下流タスクで検証する。
微調整なしでは、Frepaは他の自己教師付き事前訓練方法よりも優れており、場合によってはタスク固有の訓練されたモデルを超えている。
この改善は、網膜血管セグメンテーションにおけるDSCの最大15%増加、肺結節検出におけるIoUの最大7%増加など、細かな細部を含むタスクにおいて特に重要である。
さらなる実験により、Frepaは埋め込みにおいて優れた高周波表現と保存を可能にし、より一般化された普遍的な医用画像基盤モデルを開発する可能性を示している。
関連論文リスト
- Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - MindFormer: A Transformer Architecture for Multi-Subject Brain Decoding via fMRI [50.55024115943266]
我々は、fMRI条件の特徴ベクトルを生成するためにMindFormerと呼ばれる新しいトランスフォーマーアーキテクチャを導入する。
MindFormerは,1)fMRI信号から意味論的に意味のある特徴を抽出するIP-Adapterに基づく新しいトレーニング戦略,2)fMRI信号の個人差を効果的に捉える主観的トークンと線形層である。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - Improved Automatic Diabetic Retinopathy Severity Classification Using
Deep Multimodal Fusion of UWF-CFP and OCTA Images [1.6449510885987357]
糖尿病網膜症(英: Diabetic Retinopathy、DR)は、世界中の何百万人もの患者に影響を及ぼす糖尿病の合併症である。
近年のイメージング技術の進歩は、DRを早期に検出する機会を提供するが、同時に大きな課題も生んでいる。
本研究は,これらの画像モダリティを利用してDR分類を顕著に向上する,新しいマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:35:38Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Multimodal-Boost: Multimodal Medical Image Super-Resolution using
Multi-Attention Network with Wavelet Transform [5.416279158834623]
対応する画像分解能の喪失は、医用画像診断の全体的な性能を低下させる。
ディープラーニングベースのシングルイメージスーパーレゾリューション(SISR)アルゴリズムは、全体的な診断フレームワークに革命をもたらした。
本研究は,低周波データから高頻度情報を学習する深層マルチアテンションモジュールを用いたGAN(Generative Adversarial Network)を提案する。
論文 参考訳(メタデータ) (2021-10-22T10:13:46Z) - FREA-Unet: Frequency-aware U-net for Modality Transfer [9.084926957557842]
MRIデータから合成PET画像を生成するための新しい周波数認識型注意Uネットを提案する。
Unetは低周波層や高周波層における特徴写像の注意点を計算し、それをモデルがより重要な領域に集中するのに役立てます。
論文 参考訳(メタデータ) (2020-12-31T01:58:44Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Inf-Net: Automatic COVID-19 Lung Infection Segmentation from CT Images [152.34988415258988]
CT画像からの肺感染症の自動検出は、新型コロナウイルスに対処するための従来の医療戦略を強化する大きな可能性を秘めている。
CTスライスから感染領域を分割することは、高い感染特性の変化、感染と正常な組織の間の低強度のコントラストなど、いくつかの課題に直面している。
これらの課題に対処するため, 胸部CTスライスから感染部位を自動的に同定する, 新型のCOVID-19 Deep Lung infection Network (Inf-Net) が提案されている。
論文 参考訳(メタデータ) (2020-04-22T07:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。