論文の概要: Learning Multi-view Anomaly Detection
- arxiv url: http://arxiv.org/abs/2407.11935v1
- Date: Tue, 16 Jul 2024 17:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:34:07.245061
- Title: Learning Multi-view Anomaly Detection
- Title(参考訳): マルチビュー異常検出の学習
- Authors: Haoyang He, Jiangning Zhang, Guanzhong Tian, Chengjie Wang, Lei Xie,
- Abstract要約: 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
- 参考スコア(独自算出の注目度): 42.94263165352097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study explores the recently proposed challenging multi-view Anomaly Detection (AD) task. Single-view tasks would encounter blind spots from other perspectives, resulting in inaccuracies in sample-level prediction. Therefore, we introduce the \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD}) framework, which learns and integrates features from multi-views. Specifically, we proposed a \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS}) algorithm for feature learning and fusion across multiple views. The feature maps are divided into neighbourhood attention windows to calculate a semantic correlation matrix between single-view windows and all other views, which is a conducted attention mechanism for each single-view window and the top-K most correlated multi-view windows. Adjusting the window sizes and top-K can minimise the computational complexity to linear. Extensive experiments on the Real-IAD dataset for cross-setting (multi/single-class) validate the effectiveness of our approach, achieving state-of-the-art performance among sample \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$ levels with a total of ten metrics with only \textbf{18M} parameters and fewer GPU memory and training time.
- Abstract(参考訳): 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
シングルビュータスクは他の視点で盲点に遭遇し、結果としてサンプルレベルの予測が不正確になる。
そこで,本稿では,マルチビューから特徴を学習し,統合するフレームワークである \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD})を紹介した。
具体的には,複数のビューにまたがる特徴学習と融合のための, \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS})アルゴリズムを提案する。
特徴マップは,各単一ビューウィンドウと最上位のマルチビューウィンドウに対して実施される注意機構である,単一ビューウィンドウと他のすべてのビュー間の意味的相関行列を計算するために,近隣の注目ウィンドウに分割される。
ウィンドウサイズとトップKを調整することで、計算の複雑さを線形に最小化することができる。
クロスセッティングのためのReal-IADデータセット(multi/single-class)に関する大規模な実験は、我々のアプローチの有効性を検証し、サンプル \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$の合計10メトリクスとGPUメモリとトレーニング時間が少なくなった。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames [12.177674038614658]
視覚フレーミング分析は、社会科学において、談話における共通テーマや概念を決定するための重要な方法である。
本稿では,クラスタリングタスクを最小コストマルチカット問題 [MP] と表現する。
MPに対する解は、同じクラスタに属する2つの画像の局所的対の確率のみから、後続確率を最大化するクラスタリングを提供することが示されている。
最適クラスタリング(定義によって)と組み合わせて空間差を埋め込むという私たちの洞察は、自動的な視覚的フレーム検出を進歩させます。
論文 参考訳(メタデータ) (2024-12-02T09:09:47Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。