論文の概要: Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where
- arxiv url: http://arxiv.org/abs/2309.12757v2
- Date: Sat, 8 Jun 2024 05:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:19:21.043211
- Title: Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where
- Title(参考訳): マスキングは、ConvNetsのコントラスト的自己監督学習を改善し、Saliencyはどこにいるかを教えてくれる
- Authors: Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu,
- Abstract要約: 我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
- 参考スコア(独自算出の注目度): 63.61248884015162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly. In this work, we aim to alleviate the burden of including masking operation into the contrastive-learning framework for convolutional neural networks as an extra augmentation method. In addition to the additive but unwanted edges (between masked and unmasked regions) as well as other adverse effects caused by the masking operations for ConvNets, which have been discussed by prior works, we particularly identify the potential problem where for one view in a contrastive sample-pair the randomly-sampled masking regions could be overly concentrated on important/salient objects thus resulting in misleading contrastiveness to the other view. To this end, we propose to explicitly take the saliency constraint into consideration in which the masked regions are more evenly distributed among the foreground and background for realizing the masking-based augmentation. Moreover, we introduce hard negative samples by masking larger regions of salient patches in an input image. Extensive experiments conducted on various datasets, contrastive learning mechanisms, and downstream tasks well verify the efficacy as well as the superior performance of our proposed method with respect to several state-of-the-art baselines.
- Abstract(参考訳): 画像データは、トークン化手順とビジョントランスフォーマーバックボーンの導入により、マスクと自己再構成の目的に基づいて構築された単純だが効果的な自己教師あり学習スキームを享受し始める一方で、畳み込みニューラルネットワークは、自己教師あり学習を駆動する対照的な学習技術を持つ一方で、そのような単純で一般的なマスキング操作を活用することによる学習プロセスのメリットを大いに享受する難しさに直面している。
本研究では,畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことによる負担を軽減することを目的としている。
従来の研究で議論されてきたConvNetsのマスキング操作による他の有害な影響に加えて、無作為なサンプルペアにおいて、ランダムにサンプリングされたマスキング領域が重要/塩分な対象に過度に集中し、他の視点と誤解を招く可能性についても検討した。
そこで本稿では,マスキングによる拡張を実現するために,マスキング領域が前景と背景に均等に分散されていることを考慮して,サリエンシ制約を明示的に考慮することを提案する。
さらに,入力画像中の有意なパッチの広い領域をマスキングすることで,強い負のサンプルを導入する。
各種データセット,コントラスト学習機構,下流タスクで実施した広範囲な実験により,提案手法の有効性と,いくつかの最先端ベースラインに対する優れた性能が検証された。
関連論文リスト
- Understanding Masked Autoencoders From a Local Contrastive Perspective [80.57196495601826]
Masked AutoEncoder (MAE)は、シンプルだが効果的なマスキングと再構築戦略によって、自己指導型学習の分野に革命をもたらした。
そこで我々は,MaEの再構成的側面とコントラスト的側面の両方を解析するために,ローカルコントラストMAEと呼ばれる新しい経験的枠組みを導入する。
論文 参考訳(メタデータ) (2023-10-03T12:08:15Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - Masked Siamese ConvNets [17.337143119620755]
自己教師付き学習は、様々な視覚ベンチマークにおいて教師付き手法よりも優れた性能を示している。
Masked siamese ネットワークは特定の帰納バイアスを必要とし、視覚変換器でしか動作しない。
この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。
論文 参考訳(メタデータ) (2022-06-15T17:52:23Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - View Blind-spot as Inpainting: Self-Supervised Denoising with Mask
Guided Residual Convolution [2.179313476241343]
本稿では,新しいMask Guided Residual Convolution(MGRConv)を共通の畳み込みニューラルネットワークに導入する。
我々のMGRConvはソフトな部分的畳み込みと見なすことができ、部分的畳み込み、学習可能な注意マップ、ゲート的畳み込みのトレードオフを見つけることができる。
実験の結果,提案するプラグイン・アンド・プレイMGRConvは,ブラインドスポットに基づくデノナイジングネットワークを有効活用できることがわかった。
論文 参考訳(メタデータ) (2021-09-10T16:10:08Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。