論文の概要: Masking Improves Contrastive Self-Supervised Learning for ConvNets, and
Saliency Tells You Where
- arxiv url: http://arxiv.org/abs/2309.12757v1
- Date: Fri, 22 Sep 2023 09:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:58:48.497314
- Title: Masking Improves Contrastive Self-Supervised Learning for ConvNets, and
Saliency Tells You Where
- Title(参考訳): マスキングはコンブネットのコントラスト的自己教師付き学習を改善する
- Authors: Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen
Chiu
- Abstract要約: 我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
- 参考スコア(独自算出の注目度): 68.24640128324778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While image data starts to enjoy the simple-but-effective self-supervised
learning scheme built upon masking and self-reconstruction objective thanks to
the introduction of tokenization procedure and vision transformer backbone,
convolutional neural networks as another important and widely-adopted
architecture for image data, though having contrastive-learning techniques to
drive the self-supervised learning, still face the difficulty of leveraging
such straightforward and general masking operation to benefit their learning
process significantly. In this work, we aim to alleviate the burden of
including masking operation into the contrastive-learning framework for
convolutional neural networks as an extra augmentation method. In addition to
the additive but unwanted edges (between masked and unmasked regions) as well
as other adverse effects caused by the masking operations for ConvNets, which
have been discussed by prior works, we particularly identify the potential
problem where for one view in a contrastive sample-pair the randomly-sampled
masking regions could be overly concentrated on important/salient objects thus
resulting in misleading contrastiveness to the other view. To this end, we
propose to explicitly take the saliency constraint into consideration in which
the masked regions are more evenly distributed among the foreground and
background for realizing the masking-based augmentation. Moreover, we introduce
hard negative samples by masking larger regions of salient patches in an input
image. Extensive experiments conducted on various datasets, contrastive
learning mechanisms, and downstream tasks well verify the efficacy as well as
the superior performance of our proposed method with respect to several
state-of-the-art baselines.
- Abstract(参考訳): While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly.
本研究では,畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を付加する負担を軽減することを目的としている。
先行研究により議論されてきた,マスキング操作による付加的かつ不必要なエッジ(仮面領域と未マスク領域の間)や他の悪影響に加えて,対照サンプルペアにおいて,ランダムにサンプリングされたマスキング領域が重要・不十分な物体に過度に集中し,他方の視点とミスリーディングなコントラスト性をもたらす可能性のある問題を特に特定する。
そこで本稿では,マスキングによる拡張を実現するために,マスキング領域が前景と背景に均等に分散されていることを考慮に入れた。
さらに,入力画像内のサレジエントパッチの大きな領域をマスキングすることにより,硬い負のサンプルを導入する。
各種データセット,コントラスト学習機構,下流タスクで実施した広範囲な実験により,提案手法の有効性と,いくつかの最先端ベースラインに対する優れた性能が検証された。
関連論文リスト
- Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - Masked Siamese ConvNets [17.337143119620755]
自己教師付き学習は、様々な視覚ベンチマークにおいて教師付き手法よりも優れた性能を示している。
Masked siamese ネットワークは特定の帰納バイアスを必要とし、視覚変換器でしか動作しない。
この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。
論文 参考訳(メタデータ) (2022-06-15T17:52:23Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - View Blind-spot as Inpainting: Self-Supervised Denoising with Mask
Guided Residual Convolution [2.179313476241343]
本稿では,新しいMask Guided Residual Convolution(MGRConv)を共通の畳み込みニューラルネットワークに導入する。
我々のMGRConvはソフトな部分的畳み込みと見なすことができ、部分的畳み込み、学習可能な注意マップ、ゲート的畳み込みのトレードオフを見つけることができる。
実験の結果,提案するプラグイン・アンド・プレイMGRConvは,ブラインドスポットに基づくデノナイジングネットワークを有効活用できることがわかった。
論文 参考訳(メタデータ) (2021-09-10T16:10:08Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。