論文の概要: HaloAE: An HaloNet based Local Transformer Auto-Encoder for Anomaly
Detection and Localization
- arxiv url: http://arxiv.org/abs/2208.03486v1
- Date: Sat, 6 Aug 2022 09:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:20:28.282459
- Title: HaloAE: An HaloNet based Local Transformer Auto-Encoder for Anomaly
Detection and Localization
- Title(参考訳): haloae: 異常検出と局在化のためのhalonetベースの局所変圧器オートエンコーダ
- Authors: E. Mathian, H. Liu, L. Fernandez-Cuesta, D. Samaras, M. Foll, L. Chen
- Abstract要約: HaloAEは、HaloNetを使ったTransformerのローカル2Dバージョンをベースにした最初の自動エンコーダである。
畳み込みと局所的な2次元ブロック単位の自己注意層を組み合わせたハイブリッドモデルを構築した。
MVTecデータセットで競合する結果を得た結果,Transformerを組み込んだビジョンモデルが局所計算の恩恵を受ける可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised anomaly detection and localization is a crucial task as it is
impossible to collect and label all possible anomalies. Many studies have
emphasized the importance of integrating local and global information to
achieve accurate segmentation of anomalies. To this end, there has been a
growing interest in Transformer, which allows modeling long-range content
interactions. However, global interactions through self attention are generally
too expensive for most image scales. In this study, we introduce HaloAE, the
first auto-encoder based on a local 2D version of Transformer with HaloNet.
With HaloAE, we have created a hybrid model that combines convolution and local
2D block-wise self-attention layers and jointly performs anomaly detection and
segmentation through a single model. We achieved competitive results on the
MVTec dataset, suggesting that vision models incorporating Transformer could
benefit from a local computation of the self-attention operation, and pave the
way for other applications.
- Abstract(参考訳): 非教師付き異常検出と局所化は、あらゆる可能な異常を収集・ラベル付けすることは不可能であるため、重要な課題である。
多くの研究は、異常の正確なセグメンテーションを達成するために、ローカル情報とグローバル情報を統合することの重要性を強調している。
このため、長距離コンテンツインタラクションのモデリングを可能にするtransformerへの関心が高まっている。
しかし、自己注意によるグローバルな相互作用は、ほとんどの画像スケールでは一般的に高価すぎる。
本研究では,HaloNetを用いたTransformerのローカル2次元バージョンに基づく最初の自動エンコーダであるHaloAEを紹介する。
haloaeでは,畳み込みと局所的な2次元ブロックワイズセルフアテンション層を結合し,単一モデルによる異常検出とセグメント化を共同で行うハイブリッドモデルを構築した。
我々はMVTecデータセットの競合的な結果を達成し、Transformerを組み込んだビジョンモデルが自己注意操作の局所的な計算の恩恵を受け、他のアプリケーションへの道を開くことを示唆した。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection [2.0999222360659604]
表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
論文 参考訳(メタデータ) (2022-07-17T23:37:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Mixed Transformer U-Net For Medical Image Segmentation [14.046456257175237]
本稿では,相互親和性学習と親和性学習を同時に行うためのMTMを提案する。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築した。
論文 参考訳(メタデータ) (2021-11-08T09:03:46Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。