論文の概要: Q-Former Autoencoder: A Modern Framework for Medical Anomaly Detection
- arxiv url: http://arxiv.org/abs/2507.18481v1
- Date: Thu, 24 Jul 2025 14:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.828542
- Title: Q-Former Autoencoder: A Modern Framework for Medical Anomaly Detection
- Title(参考訳): Q-Former Autoencoder:医学的異常検出のための最新のフレームワーク
- Authors: Francesco Dalmonte, Emirhan Bayar, Emre Akbas, Mariana-Iuliana Georgescu,
- Abstract要約: 本稿では,最新のオートエンコーダベースのフレームワークであるQ-Former Autoencoderを提案する。
凍結した視覚基盤モデルを特徴抽出器として直接利用し、ドメイン固有の微調整なしでリッチで多段階な高レベル表現を可能にする。
本研究は,視覚基盤モデルエンコーダが自然画像に基づいて事前訓練され,医用画像解析タスクに効果的に応用できる可能性を強調した。
- 参考スコア(独自算出の注目度): 12.245379864678291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Anomaly detection in medical images is an important yet challenging task due to the diversity of possible anomalies and the practical impossibility of collecting comprehensively annotated data sets. In this work, we tackle unsupervised medical anomaly detection proposing a modernized autoencoder-based framework, the Q-Former Autoencoder, that leverages state-of-the-art pretrained vision foundation models, such as DINO, DINOv2 and Masked Autoencoder. Instead of training encoders from scratch, we directly utilize frozen vision foundation models as feature extractors, enabling rich, multi-stage, high-level representations without domain-specific fine-tuning. We propose the usage of the Q-Former architecture as the bottleneck, which enables the control of the length of the reconstruction sequence, while efficiently aggregating multiscale features. Additionally, we incorporate a perceptual loss computed using features from a pretrained Masked Autoencoder, guiding the reconstruction towards semantically meaningful structures. Our framework is evaluated on four diverse medical anomaly detection benchmarks, achieving state-of-the-art results on BraTS2021, RESC, and RSNA. Our results highlight the potential of vision foundation model encoders, pretrained on natural images, to generalize effectively to medical image analysis tasks without further fine-tuning. We release the code and models at https://github.com/emirhanbayar/QFAE.
- Abstract(参考訳): 医用画像における異常検出は、起こりうる異常の多様性と、包括的注釈付きデータセット収集の実用的不可能さにより、重要かつ困難な課題である。
本研究では、DINO、DINOv2、Masked Autoencoderといった最先端の事前訓練されたビジョン基盤モデルを活用する、近代化されたオートエンコーダベースのフレームワークであるQ-Former Autoencoderを提案する、教師なしの医療異常検出に取り組む。
スクラッチからエンコーダをトレーニングする代わりに、凍結した視覚基盤モデルを特徴抽出器として直接利用し、ドメイン固有の微調整なしでリッチで多段階の高レベル表現を可能にする。
本稿では,Q-Formerアーキテクチャをボトルネックとして利用し,マルチスケールの特徴を効率的に集約しながら,再構成シーケンスの長さを制御できるようにする。
さらに,事前学習したMasked Autoencoderの機能を用いて,知覚的損失を計算し,意味的に意味のある構造への再構築を導く。
当フレームワークは,BraTS2021,RESC,RSNAの4種類の医学的異常検出ベンチマークを用いて評価を行った。
本研究は,視覚基盤モデルエンコーダが自然画像に基づいて事前訓練され,医用画像解析タスクに効果的に応用できる可能性を強調した。
コードとモデルはhttps://github.com/emirbayar/QFAE.comで公開しています。
関連論文リスト
- Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation [21.183229457060634]
10KCTの大規模データセットでHi-End-MAEを事前訓練し、7つの公開医用画像セグメンテーションベンチマークでその性能を評価する。
Hi-End-MAEは、様々な下流タスクにまたがる優れた伝達学習能力を実現し、医用画像の応用におけるViTの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-12T12:14:02Z) - MA^2: A Self-Supervised and Motion Augmenting Autoencoder for Gait-Based Automatic Disease Detection [7.483446634501235]
グラウンド・リアクション・フォース(英語: Ground reaction force、GRF)は、グラウンドが物体に接触して働く力である。
GRFをベースとした自動疾患検出(ADD)が,新たな診断方法となった。
論文 参考訳(メタデータ) (2024-11-05T14:21:01Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - ReContrast: Domain-Specific Anomaly Detection via Contrastive
Reconstruction [29.370142078092375]
殆どの高度な教師なし異常検出(UAD)手法は、大規模データセットで事前訓練された冷凍エンコーダネットワークの特徴表現をモデル化することに依存している。
本稿では,事前学習した画像領域に対するバイアスを低減するために,ネットワーク全体を最適化する新しい疫学的UAD手法であるReContrastを提案する。
2つの一般的な産業欠陥検出ベンチマークと3つの医用画像UADタスクで実験を行い、現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-05T05:21:15Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Focused Decoding Enables 3D Anatomical Detection by Transformers [64.36530874341666]
集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出変換器を提案する。
Focused Decoderは、解剖学的領域のアトラスからの情報を活用して、クエリアンカーを同時にデプロイし、クロスアテンションの視野を制限する。
提案手法を利用可能な2つのCTデータセットに対して評価し、フォーカスドデコーダが強力な検出結果を提供するだけでなく、大量の注釈付きデータの必要性を軽減し、注意重みによる結果の例外的で直感的な説明性を示すことを示した。
論文 参考訳(メタデータ) (2022-07-21T22:17:21Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。