論文の概要: MixMask: Revisiting Masking Strategy for Siamese ConvNets
- arxiv url: http://arxiv.org/abs/2210.11456v4
- Date: Mon, 11 Nov 2024 14:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:20.059348
- Title: MixMask: Revisiting Masking Strategy for Siamese ConvNets
- Title(参考訳): MixMask:Siamese ConvNetsのマスキング戦略を再考
- Authors: Kirill Vishniakov, Eric Xing, Zhiqiang Shen,
- Abstract要約: この研究は、textbfMixMaskと呼ばれる新しいフィリングベースのマスキング手法を導入している。
提案手法は,消去された領域を別の画像からのコンテンツに置き換えることにより,従来のマスキング手法で見られる情報の枯渇を効果的に解消する。
我々は,線形探索,半教師付きおよび教師付きファインタニング,オブジェクト検出,セグメンテーションなどの領域におけるフレームワークの性能向上を実証的に検証した。
- 参考スコア(独自算出の注目度): 23.946791390657875
- License:
- Abstract: The recent progress in self-supervised learning has successfully combined Masked Image Modeling (MIM) with Siamese Networks, harnessing the strengths of both methodologies. Nonetheless, certain challenges persist when integrating conventional erase-based masking within Siamese ConvNets. Two primary concerns are: (1) The continuous data processing nature of ConvNets, which doesn't allow for the exclusion of non-informative masked regions, leading to reduced training efficiency compared to ViT architecture; (2) The misalignment between erase-based masking and the contrastive-based objective, distinguishing it from the MIM technique. To address these challenges, this work introduces a novel filling-based masking approach, termed \textbf{MixMask}. The proposed method replaces erased areas with content from a different image, effectively countering the information depletion seen in traditional masking methods. Additionally, we unveil an adaptive loss function that captures the semantics of the newly patched views, ensuring seamless integration within the architectural framework. We empirically validate the effectiveness of our approach through comprehensive experiments across various datasets and application scenarios. The findings underscore our framework's enhanced performance in areas such as linear probing, semi-supervised and supervised finetuning, object detection and segmentation. Notably, our method surpasses the MSCN, establishing MixMask as a more advantageous masking solution for Siamese ConvNets. Our code and models are publicly available at https://github.com/kirill-vish/MixMask.
- Abstract(参考訳): 近年の自己教師型学習の進歩は,Masked Image Modeling (MIM) とSiamese Networksの併用に成功し,両手法の長所を生かした。
それでも、従来の消去ベースのマスキングをSiamese ConvNetsに統合する場合、いくつかの課題が続いている。
主な懸念点は,(1)非情報化マスキング領域の排除を許さないConvNetの連続データ処理特性は,ViTアーキテクチャと比較してトレーニング効率を低下させる。
これらの課題に対処するために、この研究は、新しいフィリングベースのマスキングアプローチを導入し、それを \textbf{MixMask} と呼ぶ。
提案手法は,消去された領域を別の画像からのコンテンツに置き換えることにより,従来のマスキング手法で見られる情報の枯渇を効果的に解消する。
さらに、新たにパッチされたビューのセマンティクスをキャプチャし、アーキテクチャフレームワーク内でシームレスに統合するアダプティブ・ロス関数を公開します。
さまざまなデータセットやアプリケーションシナリオにわたる包括的な実験を通じて、アプローチの有効性を実証的に検証する。
その結果,線形探索,半教師付きおよび教師付きファインタニング,物体検出,セグメンテーションなどの分野でのフレームワークの性能向上が示唆された。
特に,本手法はMSCNを超越し,Siamese ConvNetsのより有利なマスキングソリューションとしてMixMaskを確立した。
私たちのコードとモデルはhttps://github.com/kirill-vish/MixMask.comで公開されています。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。
マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文 参考訳(メタデータ) (2023-09-22T09:58:38Z) - Toward a Deeper Understanding: RetNet Viewed through Convolution [25.8904146140577]
Vision Transformer (ViT)はCNNよりもグローバルな依存関係を学習できるが、CNN固有のローカリティは高価なトレーニングリソースに取って代わることができる。
本稿では、CNNの観点からRetNetの有効性について検討し、視覚領域に合わせたRetNetの変種を示す。
本稿では,1つのマスクが2つの学習可能なパラメータしか持たない新しいガウス混合マスク(GMM)を提案する。
論文 参考訳(メタデータ) (2023-09-11T10:54:22Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Masked Siamese ConvNets [17.337143119620755]
自己教師付き学習は、様々な視覚ベンチマークにおいて教師付き手法よりも優れた性能を示している。
Masked siamese ネットワークは特定の帰納バイアスを必要とし、視覚変換器でしか動作しない。
この研究は、ConvNetsによるマスク付きシアムネットワークの問題点を実証的に研究する。
論文 参考訳(メタデータ) (2022-06-15T17:52:23Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。