論文の概要: FreMAE: Fourier Transform Meets Masked Autoencoders for Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2304.10864v1
- Date: Fri, 21 Apr 2023 10:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:00:20.716654
- Title: FreMAE: Fourier Transform Meets Masked Autoencoders for Medical Image
Segmentation
- Title(参考訳): FreMAE:フーリエ変換で医療用自動エンコーダーが登場
- Authors: Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Lichao Sun, Yuanxiu
Cai, Shanshan Song, Jiangyun Li
- Abstract要約: 医用画像セグメンテーションのための自己教師付き事前トレーニングのための新しいMIMベースのフレームワークFreMAEを提案する。
当社のFreMAEは、モデルパフォーマンスを継続的に改善することが出来ました。
- 参考スコア(独自算出の注目度): 30.217891200135295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research community has witnessed the powerful potential of
self-supervised Masked Image Modeling (MIM), which enables the models capable
of learning visual representation from unlabeled data. In this paper, to
incorporate both the crucial global structural information and local details
for dense prediction tasks, we alter the perspective to the frequency domain
and present a new MIM-based framework named FreMAE for self-supervised
pre-training for medical image segmentation. Based on the observations that the
detailed structural information mainly lies in the high-frequency components
and the high-level semantics are abundant in the low-frequency counterparts, we
further incorporate multi-stage supervision to guide the representation
learning during the pre-training phase. Extensive experiments on three
benchmark datasets show the superior advantage of our proposed FreMAE over
previous state-of-the-art MIM methods. Compared with various baselines trained
from scratch, our FreMAE could consistently bring considerable improvements to
the model performance. To the best our knowledge, this is the first attempt
towards MIM with Fourier Transform in medical image segmentation.
- Abstract(参考訳): 研究コミュニティは、ラベルのないデータから視覚的表現を学習できるモデルを可能にする、自己監督型マスク付き画像モデリング(MIM)の強力な可能性を見出した。
本稿では,重度予測タスクにおける重要なグローバル構造情報と局所的詳細情報の両方を組み込むため,周波数領域に対する視点を変更し,医用画像セグメンテーションのための自己教師付き事前トレーニングのためのFreMAEという新しいMIMベースのフレームワークを提案する。
詳細な構造情報は、主に高周波成分に関係しており、低周波成分には高レベルの意味が豊富であるという観測に基づいて、事前学習期間中の表現学習を指導するための多段階監視を更に取り入れる。
3つのベンチマークデータセットに対する大規模な実験は、従来のMIM法よりもFreMAEの方が優れていることを示している。
スクラッチからトレーニングされたさまざまなベースラインと比較すると、fremaeは一貫してモデルパフォーマンスを改善できるでしょう。
私たちの知る限りでは、医療画像のセグメンテーションにおけるフーリエ変換によるmimへの最初の試みです。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - MIM-Refiner: A Contrastive Learning Boost from Intermediate Pre-Trained Representations [16.885965702357314]
MIM-Refinerは、事前訓練されたMIMモデルの対照的な学習促進である。
我々はMIMモデルの特徴を、サブパーから最先端のオフ・ザ・シェルフ機能まで洗練する。
論文 参考訳(メタデータ) (2024-02-15T16:46:16Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation [29.15746532186427]
HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
論文 参考訳(メタデータ) (2023-03-18T04:43:12Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。