論文の概要: MixMask: Revisiting Masking Strategy for Siamese ConvNets
- arxiv url: http://arxiv.org/abs/2210.11456v3
- Date: Tue, 21 Mar 2023 16:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:44:46.914979
- Title: MixMask: Revisiting Masking Strategy for Siamese ConvNets
- Title(参考訳): MixMask:Siamese ConvNetsのマスキング戦略を再考
- Authors: Kirill Vishniakov and Eric Xing and Zhiqiang Shen
- Abstract要約: 画像中のランダムに消去された領域によって引き起こされる情報の不完全性を防止するために,MixMaskと呼ばれる補充型マスキング手法を提案する。
提案手法は, 線形探索, 半教師付き, 教師付き微調整において, 精度が向上し, 最先端のMSCNよりも有意な差が認められた。
- 参考スコア(独自算出の注目度): 24.20212182301359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in self-supervised learning have integrated Masked Image
Modeling (MIM) and Siamese Networks into a unified framework that leverages the
benefits of both techniques. However, several issues remain unaddressed when
applying conventional erase-based masking with Siamese ConvNets. These include
(I) the inability to drop uninformative masked regions in ConvNets as they
process data continuously, resulting in low training efficiency compared to ViT
models; and (II) the mismatch between erase-based masking and the
contrastive-based objective in Siamese ConvNets, which differs from the MIM
approach. In this paper, we propose a filling-based masking strategy called
MixMask to prevent information incompleteness caused by the randomly erased
regions in an image in the vanilla masking method. Furthermore, we introduce a
flexible loss function design that considers the semantic distance change
between two different mixed views to adapt the integrated architecture and
prevent mismatches between the transformed input and objective in Masked
Siamese ConvNets (MSCN). We conducted extensive experiments on various
datasets, including CIFAR-100, Tiny-ImageNet, and ImageNet-1K. The results
demonstrate that our proposed framework achieves superior accuracy on linear
probing, semi-supervised, and supervised finetuning, outperforming the
state-of-the-art MSCN by a significant margin. Additionally, we demonstrate the
superiority of our approach in object detection and segmentation tasks. Our
source code is available at https://github.com/LightnessOfBeing/MixMask.
- Abstract(参考訳): 近年の自己教師型学習は,Masked Image Modeling (MIM)とSiamese Networksを統合フレームワークに統合し,両者の利点を活用している。
しかし、従来の消去ベースのマスクをSiamese ConvNetsで適用する場合、いくつかの問題は未解決のままである。
例えば、(I)データ処理が継続するにつれて、ConvNetの非形式的なマスキング領域をドロップできないこと、そして(II)MIMのアプローチとは異なる、消去ベースのマスキングとコントラッシブベースの目的とのミスマッチを、ViTモデルと比較してトレーニング効率が低いことが挙げられる。
本稿では,バニラマスキング法における画像中のランダムに消去された領域による情報不完全さを防止すべく,mixmaskと呼ばれる充填型マスキング戦略を提案する。
さらに,2つの異なる混合ビュー間の意味的距離変化を考慮したフレキシブルなロス関数設計を導入し,統合アーキテクチャを適応させ,マスキング・シアム・コンブネット(mscn)における変換入力と目的とのミスマッチを防止する。
我々は、CIFAR-100、Tiny-ImageNet、ImageNet-1Kなど、さまざまなデータセットに関する広範な実験を行った。
その結果,提案手法は線形プローブ,半教師あり,教師あり微調整において優れた精度を達成し,最先端mscnを有意差で上回った。
さらに,オブジェクト検出およびセグメント化タスクにおけるアプローチの優位性を示す。
ソースコードはhttps://github.com/lightnessofbeing/mixmaskで入手できます。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Masked Siamese ConvNets [17.337143119620755]
自己教師付き学習は、様々な視覚ベンチマークにおいて教師付き手法よりも優れた性能を示している。
Masked siamese ネットワークは特定の帰納バイアスを必要とし、視覚変換器でしか動作しない。
この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。
論文 参考訳(メタデータ) (2022-06-15T17:52:23Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。