論文の概要: OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection
- arxiv url: http://arxiv.org/abs/2103.14953v1
- Date: Sat, 27 Mar 2021 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:12:55.141237
- Title: OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection
- Title(参考訳): oled: コンテクストマスキングを用いた1クラス学習エンコーダ・デコーダネットワーク
- Authors: John Taylor Jewell, Vahid Reza Khazaie, Yalda Mohsenzadeh
- Abstract要約: 新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novelty detection is the task of recognizing samples that do not belong to
the distribution of the target class. During training, the novelty class is
absent, preventing the use of traditional classification approaches. Deep
autoencoders have been widely used as a base of many unsupervised novelty
detection methods. In particular, context autoencoders have been successful in
the novelty detection task because of the more effective representations they
learn by reconstructing original images from randomly masked images. However, a
significant drawback of context autoencoders is that random masking fails to
consistently cover important structures of the input image, leading to
suboptimal representations - especially for the novelty detection task. In this
paper, to optimize input masking, we have designed a framework consisting of
two competing networks, a Mask Module and a Reconstructor. The Mask Module is a
convolutional autoencoder that learns to generate optimal masks that cover the
most important parts of images. Alternatively, the Reconstructor is a
convolutional encoder-decoder that aims to reconstruct unperturbed images from
masked images. The networks are trained in an adversarial manner in which the
Mask Module generates masks that are applied to images given to the
Reconstructor. In this way, the Mask Module seeks to maximize the
reconstruction error that the Reconstructor is minimizing. When applied to
novelty detection, the proposed approach learns semantically richer
representations compared to context autoencoders and enhances novelty detection
at test time through more optimal masking. Novelty detection experiments on the
MNIST and CIFAR-10 image datasets demonstrate the proposed approach's
superiority over cutting-edge methods. In a further experiment on the UCSD
video dataset for novelty detection, the proposed approach achieves
state-of-the-art results.
- Abstract(参考訳): 新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
訓練中、新しいクラスは欠席しており、伝統的な分類手法の使用を妨げている。
ディープオートエンコーダは多くの教師なしノベルティ検出法の基礎として広く使われている。
特にコンテキストオートエンコーダは、ランダムにマスクされた画像から元の画像を再構成することで学習するより効果的な表現により、ノベルティ検出タスクに成功している。
しかし、文脈オートエンコーダの重大な欠点は、ランダムマスキングが入力画像の重要な構造を一貫して覆うことに失敗し、特にノベルティ検出タスクにおいて、副最適表現(suboptimal representations)につながることである。
本稿では,入力マスキングを最適化するために,マスクモジュールとリコンストラクタという2つの競合するネットワークからなるフレームワークを設計した。
Mask Moduleは、画像の最も重要な部分をカバーする最適なマスクを生成するための畳み込みオートエンコーダである。
あるいは、Reconstructorは畳み込みエンコーダデコーダであり、マスクされた画像から未摂動画像を再構成することを目的としている。
ネットワークは、マスクモジュールが再構成者に与えられた画像に適用されるマスクを生成する敵対的な方法で訓練される。
このようにして、Maskモジュールは、リコンストラクタが最小化している再構築エラーを最大化する。
提案手法は,コンテキストの自動エンコーダと比較して意味的にリッチな表現を学習し,より最適なマスキングによりテスト時の新規性検出を向上させる。
mnistおよびcifar-10画像データセットの新規検出実験により,切削刃法に対する提案手法の優位性が示された。
ucsdビデオデータセットによる新奇性検出のさらなる実験において,提案手法は最先端の結果を得る。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification [29.15203530375882]
深層学習を用いたリモートセンシング(RS)画像からの変化(CD)を文献的に広く研究している。
入力画像対から分類マスクを適応的に生成し,変化領域を検出するMaskCDを提案する。
ピクセルワイズ表現を学習可能なマスク提案に復号することで、望まれる変更対象を再構築する。
論文 参考訳(メタデータ) (2024-04-18T11:05:15Z) - On Mask-based Image Set Desensitization with Recognition Support [46.51027529020668]
マスクを用いた画像デセンシタイズ手法を提案する。
我々は,認識タスクの重要な情報を維持するために,解釈アルゴリズムを利用する。
また,マスク画像に基づく性能向上のためのモデル調整手法として,特徴選択マスクネットを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:26:42Z) - Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文 参考訳(メタデータ) (2023-09-20T21:59:23Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Contrastive Attention Network with Dense Field Estimation for Face
Completion [11.631559190975034]
本稿では,エンコーダの一般化とロバスト性を改善するために,自己教師付きシームズ推論ネットワークを提案する。
顔画像の幾何学的変動に対処するため,ネットワークに高密度対応フィールドを組み込む。
このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するのに有用である。
論文 参考訳(メタデータ) (2021-12-20T02:54:38Z) - Adaptive Shrink-Mask for Text Detection [91.34459257409104]
既存のリアルタイムテキスト検出器は、ストリップマスクによってテキストの輪郭を直接再構築する。
予測された収縮マスクへの依存は不安定な検出結果をもたらす。
スーパーピクセルウィンドウ (SPW) はネットワークを監督するように設計されている。
論文 参考訳(メタデータ) (2021-11-18T07:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。