論文の概要: Learning Multi-view Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.11935v1
- Date: Tue, 16 Jul 2024 17:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:34:07.245061
- Title: Learning Multi-view Anomaly Detection
- Title(参考訳): マルチビュー異常検出の学習
- Authors: Haoyang He, Jiangning Zhang, Guanzhong Tian, Chengjie Wang, Lei Xie,
- Abstract要約: 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
- 参考スコア(独自算出の注目度): 42.94263165352097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the recently proposed challenging multi-view Anomaly Detection (AD) task. Single-view tasks would encounter blind spots from other perspectives, resulting in inaccuracies in sample-level prediction. Therefore, we introduce the \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD}) framework, which learns and integrates features from multi-views. Specifically, we proposed a \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS}) algorithm for feature learning and fusion across multiple views. The feature maps are divided into neighbourhood attention windows to calculate a semantic correlation matrix between single-view windows and all other views, which is a conducted attention mechanism for each single-view window and the top-K most correlated multi-view windows. Adjusting the window sizes and top-K can minimise the computational complexity to linear. Extensive experiments on the Real-IAD dataset for cross-setting (multi/single-class) validate the effectiveness of our approach, achieving state-of-the-art performance among sample \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$ levels with a total of ten metrics with only \textbf{18M} parameters and fewer GPU memory and training time.
- Abstract(参考訳): 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
シングルビュータスクは他の視点で盲点に遭遇し、結果としてサンプルレベルの予測が不正確になる。
そこで,本稿では,マルチビューから特徴を学習し,統合するフレームワークである \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD})を紹介した。
具体的には,複数のビューにまたがる特徴学習と融合のための, \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS})アルゴリズムを提案する。
特徴マップは,各単一ビューウィンドウと最上位のマルチビューウィンドウに対して実施される注意機構である,単一ビューウィンドウと他のすべてのビュー間の意味的相関行列を計算するために,近隣の注目ウィンドウに分割される。
ウィンドウサイズとトップKを調整することで、計算の複雑さを線形に最小化することができる。
クロスセッティングのためのReal-IADデータセット(multi/single-class)に関する大規模な実験は、我々のアプローチの有効性を検証し、サンプル \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$の合計10メトリクスとGPUメモリとトレーニング時間が少なくなった。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。