論文の概要: Multi-Image Visual Question Answering for Unsupervised Anomaly Detection
- arxiv url: http://arxiv.org/abs/2404.07622v1
- Date: Thu, 11 Apr 2024 10:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:19:15.594899
- Title: Multi-Image Visual Question Answering for Unsupervised Anomaly Detection
- Title(参考訳): 教師なし異常検出のためのマルチイメージビジュアル質問応答
- Authors: Jun Li, Cosmin I. Bercea, Philip Müller, Lina Felsner, Suhwan Kim, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel,
- Abstract要約: 教師なし異常検出は、通常の画像のみに特化して訓練されたモデルによって生成された擬似健康再構築を用いて、原画像のジャクサポス化によって、潜在的な病理領域の同定を可能にする。
近年の言語モデルの進歩は、人間のような理解を模倣し、詳細な記述を提供する能力を示している。
本稿では,視覚的知識抽出に多彩な特徴融合戦略を取り入れた,異常検出に適した新しいマルチイメージ視覚質問応答フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.674931689496225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised anomaly detection enables the identification of potential pathological areas by juxtaposing original images with their pseudo-healthy reconstructions generated by models trained exclusively on normal images. However, the clinical interpretation of resultant anomaly maps presents a challenge due to a lack of detailed, understandable explanations. Recent advancements in language models have shown the capability of mimicking human-like understanding and providing detailed descriptions. This raises an interesting question: \textit{How can language models be employed to make the anomaly maps more explainable?} To the best of our knowledge, we are the first to leverage a language model for unsupervised anomaly detection, for which we construct a dataset with different questions and answers. Additionally, we present a novel multi-image visual question answering framework tailored for anomaly detection, incorporating diverse feature fusion strategies to enhance visual knowledge extraction. Our experiments reveal that the framework, augmented by our new Knowledge Q-Former module, adeptly answers questions on the anomaly detection dataset. Besides, integrating anomaly maps as inputs distinctly aids in improving the detection of unseen pathologies.
- Abstract(参考訳): 教師なし異常検出は、通常の画像のみに特化して訓練されたモデルによって生成された擬似健康再構築を用いて、原画像のジャクサポス化によって、潜在的な病理領域の同定を可能にする。
しかしながら、結果の異常マップの臨床的解釈は、詳細で理解可能な説明が欠如していることから、課題を呈している。
近年の言語モデルの進歩は、人間のような理解を模倣し、詳細な記述を提供する能力を示している。
これは興味深い疑問を提起する。 \textit{How can be used to the anomaly map more explainable?
} 私たちの知る限りでは、教師なしの異常検出に言語モデルを最初に活用し、異なる質問と回答のデータセットを構築します。
さらに,視覚的知識抽出に多彩な特徴融合戦略を取り入れた,異常検出に適した多面的視覚質問応答フレームワークを提案する。
実験の結果,新たなKnowledge Q-Formerモジュールによって拡張されたこのフレームワークは,異常検出データセットに関する質問に答えることができた。
さらに、異常マップを入力として統合することは、目に見えない病態の検出を改善するのに役立つ。
関連論文リスト
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Towards Universal Unsupervised Anomaly Detection in Medical Imaging [13.161402789616004]
現実的な擬似健康再構築を実現するために,新しい教師なし異常検出手法であるtextitReversed Auto-Encoders (RA) を提案する。
提案手法は, 脳のMRI, 小児手首X線, 胸部X線など, 様々な画像モダリティにまたがって評価される。
医用画像の診断精度は, より広い範囲の未知の病態を同定することによって向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-19T11:35:07Z) - MAEDiff: Masked Autoencoder-enhanced Diffusion Models for Unsupervised
Anomaly Detection in Brain Images [40.89943932086941]
脳画像における教師なし異常検出のためのMasked Autoencoder-enhanced Diffusion Model (MAEDiff)を提案する。
MAEDiffは、階層的なパッチ分割を含む。上層パッチを重畳して健全なイメージを生成し、サブレベルパッチで動作するマスク付きオートエンコーダに基づくメカニズムを実装し、未通知領域の状態を高める。
論文 参考訳(メタデータ) (2024-01-19T08:54:54Z) - Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。
近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。
本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文 参考訳(メタデータ) (2023-11-13T02:54:17Z) - Explainable Anomaly Detection in Images and Videos: A Survey [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習のアカデミックと実世界のシナリオの適用において非常に重要である。
近年の視覚異常検出技術の急速な発展にもかかわらず、これらのブラックボックスモデルの解釈や、なぜ異常を区別できるのかの合理的な説明は乏しい。
本稿では,説明可能な視覚異常検出法に焦点をあてた最初の調査を行う。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z) - Diffusion Models for Medical Anomaly Detection [0.8999666725996974]
本稿では,拡散暗黙的モデルに基づく弱教師付き異常検出手法を提案する。
本手法は,複雑な訓練手順を必要とせずに,非常に詳細な異常マップを生成する。
論文 参考訳(メタデータ) (2022-03-08T12:35:07Z) - SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection [76.01333073259677]
無線画像からの異常検出のための空間認識型メモリキューを提案する(略してSQUID)。
SQUIDは, 微細な解剖学的構造を逐次パターンに分類でき, 推測では画像中の異常(見えない/修正されたパターン)を識別できる。
論文 参考訳(メタデータ) (2021-11-26T13:47:34Z) - Self-Supervised Predictive Convolutional Attentive Block for Anomaly
Detection [97.93062818228015]
本稿では,再建に基づく機能を,新たな自己監督型予測アーキテクチャビルディングブロックに統合することを提案する。
我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。
画像やビデオの異常検出のための最先端フレームワークに組み込むことで,ブロックの汎用性を実証する。
論文 参考訳(メタデータ) (2021-11-17T13:30:31Z) - Anomaly Detection in Medical Imaging with Deep Perceptual Autoencoders [1.7277957019593995]
画像異常検出の新しい強力な手法を提案する。
これは、再設計されたトレーニングパイプラインを備えた古典的なオートエンコーダアプローチに依存している。
複雑な医用画像解析タスクにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-06-23T18:45:55Z) - Manifolds for Unsupervised Visual Anomaly Detection [79.22051549519989]
トレーニングで必ずしも異常に遭遇しない教師なしの学習方法は、非常に有用です。
ジャイロプレーン層を用いた立体投影による超球形変分オートエンコーダ(VAE)を開発した。
工業用AIシナリオにおける実世界の実用性を実証し、精密製造および検査における視覚異常ベンチマークの最先端結果を示す。
論文 参考訳(メタデータ) (2020-06-19T20:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。