Fugu-MT 論文翻訳(概要): Learning Multi-view Anomaly Detection

論文の概要: Learning Multi-view Anomaly Detection

arxiv url: http://arxiv.org/abs/2407.11935v1
Date: Tue, 16 Jul 2024 17:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 13:34:07.245061
Title: Learning Multi-view Anomaly Detection
Title（参考訳）: マルチビュー異常検出の学習
Authors: Haoyang He, Jiangning Zhang, Guanzhong Tian, Chengjie Wang, Lei Xie,
Abstract要約: 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
参考スコア（独自算出の注目度）: 42.94263165352097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study explores the recently proposed challenging multi-view Anomaly Detection (AD) task. Single-view tasks would encounter blind spots from other perspectives, resulting in inaccuracies in sample-level prediction. Therefore, we introduce the \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD}) framework, which learns and integrates features from multi-views. Specifically, we proposed a \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS}) algorithm for feature learning and fusion across multiple views. The feature maps are divided into neighbourhood attention windows to calculate a semantic correlation matrix between single-view windows and all other views, which is a conducted attention mechanism for each single-view window and the top-K most correlated multi-view windows. Adjusting the window sizes and top-K can minimise the computational complexity to linear. Extensive experiments on the Real-IAD dataset for cross-setting (multi/single-class) validate the effectiveness of our approach, achieving state-of-the-art performance among sample \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$ levels with a total of ten metrics with only \textbf{18M} parameters and fewer GPU memory and training time.
Abstract（参考訳）: 本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。シングルビュータスクは他の視点で盲点に遭遇し、結果としてサンプルレベルの予測が不正確になる。そこで,本稿では,マルチビューから特徴を学習し,統合するフレームワークである \textbf{M}ulti-\textbf{V}iew \textbf{A}nomaly \textbf{D}etection (\textbf{MVAD})を紹介した。具体的には,複数のビューにまたがる特徴学習と融合のための, \textbf{M}ulti-\textbf{V}iew \textbf{A}daptive \textbf{S}election (\textbf{MVAS})アルゴリズムを提案する。特徴マップは,各単一ビューウィンドウと最上位のマルチビューウィンドウに対して実施される注意機構である,単一ビューウィンドウと他のすべてのビュー間の意味的相関行列を計算するために,近隣の注目ウィンドウに分割される。ウィンドウサイズとトップKを調整することで、計算の複雑さを線形に最小化することができる。クロスセッティングのためのReal-IADデータセット(multi/single-class)に関する大規模な実験は、我々のアプローチの有効性を検証し、サンプル \textbf{4.1\%}$\uparrow$/ image \textbf{5.6\%}$\uparrow$/pixel \textbf{6.7\%}$\uparrow$の合計10メトリクスとGPUメモリとトレーニング時間が少なくなった。

関連論文リスト

Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。 MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文参考訳（メタデータ） (2025-01-05T14:42:47Z)
I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames [12.177674038614658]
視覚フレーミング分析は、社会科学において、談話における共通テーマや概念を決定するための重要な方法である。本稿では,クラスタリングタスクを最小コストマルチカット問題 [MP] と表現する。 MPに対する解は、同じクラスタに属する2つの画像の局所的対の確率のみから、後続確率を最大化するクラスタリングを提供することが示されている。最適クラスタリング(定義によって)と組み合わせて空間差を埋め込むという私たちの洞察は、自動的な視覚的フレーム検出を進歩させます。
論文参考訳（メタデータ） (2024-12-02T09:09:47Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。 CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。 rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文参考訳（メタデータ） (2024-05-22T04:34:36Z)
S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering [38.35594663863098]
6つの大規模マルチビューデータセットの実験結果から、S2MVTCはクラスタリング性能とCPU実行時間において、最先端のアルゴリズムを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-14T05:00:29Z)
One for all: A novel Dual-space Co-training baseline for Large-scale Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文参考訳（メタデータ） (2024-01-28T16:30:13Z)
Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文参考訳（メタデータ） (2023-10-23T10:37:22Z)
DealMVC: Dual Contrastive Calibration for Multi-view Clustering [78.54355167448614]
マルチビュークラスタリングのための新しいデュアルコントラストキャリブレーションネットワーク(DealMVC)を提案する。まず、グローバルなクロスビュー特徴を得るための融合機構を設計し、その上で、ビュー特徴類似性グラフと高信頼な擬ラベルグラフを整列させることにより、グローバルなコントラストキャリブレーション損失を提案する。トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。
論文参考訳（メタデータ） (2023-08-17T14:14:28Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)
Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and Prototype Alignment [50.82982601256481]
深層不完全なマルチビュークラスタリングのためのクロスビュー部分サンプルとプロトタイプアライメントネットワーク(CPSPAN)を提案する。従来のコントラストベースの手法とは異なり、インスタンスとインスタンスの対応構築を導くために、ペア観測データアライメントを「プロキシ監視信号」として採用する。
論文参考訳（メタデータ） (2023-03-28T02:31:57Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文参考訳（メタデータ） (2022-08-25T05:47:39Z)
Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文参考訳（メタデータ） (2022-03-28T23:35:45Z)
Tensor-based Intrinsic Subspace Representation Learning for Multi-view Clustering [18.0093330816895]
本稿では,マルチビュークラスタリングのための新規な固有部分空間表現(TISRL)を提案する。異なる視点に含まれる特定の情報は、階級保存分解によって完全に調査されていることが分かる。 9つの一般的な実世界のマルチビューデータセットの実験結果は、TISRLの優位性を示している。
論文参考訳（メタデータ） (2020-10-19T03:36:18Z)
Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。 6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文参考訳（メタデータ） (2020-06-14T12:47:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。