論文の概要: FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2304.10864v3
- Date: Thu, 30 Nov 2023 07:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:46:34.015641
- Title: FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image
Segmentation
- Title(参考訳): FreMIM:フーリエ変換は、医療画像セグメンテーションのための仮面画像モデリングを実現する
- Authors: Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Yuanxiu Cai, Shanshan
Song, Jiangyun Li
- Abstract要約: 本稿では,医療画像のセグメンテーション作業の効率化を目的として,FreMIMというMIMベースの新しいフレームワークを提案する。
FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 37.465246717967595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research community has witnessed the powerful potential of
self-supervised Masked Image Modeling (MIM), which enables the models capable
of learning visual representation from unlabeled data. In this paper, to
incorporate both the crucial global structural information and local details
for dense prediction tasks, we alter the perspective to the frequency domain
and present a new MIM-based framework named FreMIM for self-supervised
pre-training to better accomplish medical image segmentation tasks. Based on
the observations that the detailed structural information mainly lies in the
high-frequency components and the high-level semantics are abundant in the
low-frequency counterparts, we further incorporate multi-stage supervision to
guide the representation learning during the pre-training phase. Extensive
experiments on three benchmark datasets show the superior advantage of our
FreMIM over previous state-of-the-art MIM methods. Compared with various
baselines trained from scratch, our FreMIM could consistently bring
considerable improvements to model performance. The code will be publicly
available at https://github.com/Rubics-Xuan/FreMIM.
- Abstract(参考訳): 研究コミュニティは、ラベルのないデータから視覚的表現を学習できるモデルを可能にする、自己監督型マスク付き画像モデリング(MIM)の強力な可能性を見出した。
本稿では,高密度予測タスクにおける重要なグローバル構造情報と局部的詳細情報の両方を組み込むため,周波数領域の視点を変更し,医用画像分割タスクをよりよく行うための自己教師付き事前トレーニングのためのFreMIMというMIMベースのフレームワークを提案する。
詳細な構造情報は、主に高周波成分に関係しており、低周波成分には高レベルの意味が豊富であるという観測に基づいて、事前学習期間中の表現学習を指導するための多段階監視を更に取り入れる。
3つのベンチマークデータセットに対する大規模な実験は、従来の最先端MIM法よりもFreMIMの方が優れていることを示している。
ゼロからトレーニングされたさまざまなベースラインと比較して、FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらすことができます。
コードはhttps://github.com/Rubics-Xuan/FreMIM.comで公開される。
関連論文リスト
- Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation [29.15746532186427]
HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
論文 参考訳(メタデータ) (2023-03-18T04:43:12Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。