論文の概要: MixMask: Revisiting Masked Siamese Self-supervised Learning in
Asymmetric Distance
- arxiv url: http://arxiv.org/abs/2210.11456v1
- Date: Thu, 20 Oct 2022 17:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:21:53.932025
- Title: MixMask: Revisiting Masked Siamese Self-supervised Learning in
Asymmetric Distance
- Title(参考訳): MixMask:非対称距離におけるマスクシームの自己教師型学習の再考
- Authors: Kirill Vishniakov and Eric Xing and Zhiqiang Shen
- Abstract要約: 画像のランダムに消去された領域による情報損失を防止するために,MixMaskと呼ばれる補充型マスキング方式を提案する。
提案手法により, 線形探索, 半教師付き, 教師付き微調整の精度が向上し, 最先端のMSCNよりも大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 24.20212182301359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised learning integrate Masked Modeling and
Siamese Networks into a single framework to fully reap the advantages of both
the two techniques. However, previous erasing-based masking scheme in masked
image modeling is not originally designed for siamese networks. Existing
approaches simply inherit the default loss design from previous siamese
networks, and ignore the information loss and distance change after employing
masking operation in the frameworks. In this paper, we propose a filling-based
masking strategy called MixMask to prevent information loss due to the randomly
erased areas of an image in vanilla masking method. We further introduce a
dynamic loss function design with soft distance to adapt the integrated
architecture and avoid mismatches between transformed input and objective in
Masked Siamese ConvNets (MSCN). The dynamic loss distance is calculated
according to the proposed mix-masking scheme. Extensive experiments are
conducted on various datasets of CIFAR-100, Tiny-ImageNet and ImageNet-1K. The
results demonstrate that the proposed framework can achieve better accuracy on
linear probing, semi-supervised and {supervised finetuning}, which outperforms
the state-of-the-art MSCN by a significant margin. We also show the superiority
on downstream tasks of object detection and segmentation. Our source code is
available at https://github.com/LightnessOfBeing/MixMask.
- Abstract(参考訳): 近年の自己教師型学習は,Masked ModelingとSiamese Networksをひとつのフレームワークに統合し,両者の利点を完全に享受している。
しかし、マスク画像モデリングにおける過去の消去に基づくマスキング方式は、もともとシアムネットワークのために設計されていない。
既存のアプローチは、従来のシアムネットワークからデフォルトの損失設計を継承し、フレームワークでマスキング操作を採用した後の情報損失と距離変化を無視する。
本論文では,バニラマスキング法において,画像のランダム消去領域による情報損失を防止するため,mixmaskと呼ばれる充填型マスキング戦略を提案する。
さらに,MSCN(Masked Siamese ConvNets)において,統合アーキテクチャをソフト距離で適用し,変換された入力と目的とのミスマッチを回避するために,動的損失関数の設計を導入する。
提案した混合マスキング方式により動的損失距離を算出する。
CIFAR-100、Tiny-ImageNet、ImageNet-1Kの様々なデータセットで大規模な実験が行われた。
提案手法により, 線形探索, 半教師付き, 教師付き微調整の精度が向上し, 最先端のMSCNよりも大幅に向上することが実証された。
また,オブジェクト検出とセグメンテーションの下流タスクにおける優越性を示す。
ソースコードはhttps://github.com/lightnessofbeing/mixmaskで入手できます。
関連論文リスト
- Masking Improves Contrastive Self-Supervised Learning for ConvNets, and
Saliency Tells You Where [68.24640128324778]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Masked Siamese ConvNets [17.337143119620755]
自己教師付き学習は、様々な視覚ベンチマークにおいて教師付き手法よりも優れた性能を示している。
Masked siamese ネットワークは特定の帰納バイアスを必要とし、視覚変換器でしか動作しない。
この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。
論文 参考訳(メタデータ) (2022-06-15T17:52:23Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - View Blind-spot as Inpainting: Self-Supervised Denoising with Mask
Guided Residual Convolution [2.179313476241343]
本稿では,新しいMask Guided Residual Convolution(MGRConv)を共通の畳み込みニューラルネットワークに導入する。
我々のMGRConvはソフトな部分的畳み込みと見なすことができ、部分的畳み込み、学習可能な注意マップ、ゲート的畳み込みのトレードオフを見つけることができる。
実験の結果,提案するプラグイン・アンド・プレイMGRConvは,ブラインドスポットに基づくデノナイジングネットワークを有効活用できることがわかった。
論文 参考訳(メタデータ) (2021-09-10T16:10:08Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。