論文の概要: MaskAnyNet: Rethinking Masked Image Regions as Valuable Information in Supervised Learning
- arxiv url: http://arxiv.org/abs/2511.12480v1
- Date: Sun, 16 Nov 2025 07:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.192159
- Title: MaskAnyNet: Rethinking Masked Image Regions as Valuable Information in Supervised Learning
- Title(参考訳): MaskAnyNet: 教師付き学習における価値ある情報としてマスク付き画像領域を再考する
- Authors: Jingshan Hong, Haigen Hu, Huihuang Zhang, Qianwei Zhou, Zhao Li,
- Abstract要約: MaskAnyNetは、マスキングと再学習メカニズムを組み合わせることで、可視情報とマスキング情報の両方を活用する。
CNNとTransformerのバックボーンの実験は、複数のベンチマークで一貫した利得を示している。
- 参考スコア(独自算出の注目度): 7.222969785370652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supervised learning, traditional image masking faces two key issues: (i) discarded pixels are underutilized, leading to a loss of valuable contextual information; (ii) masking may remove small or critical features, especially in fine-grained tasks. In contrast, masked image modeling (MIM) has demonstrated that masked regions can be reconstructed from partial input, revealing that even incomplete data can exhibit strong contextual consistency with the original image. This highlights the potential of masked regions as sources of semantic diversity. Motivated by this, we revisit the image masking approach, proposing to treat masked content as auxiliary knowledge rather than ignored. Based on this, we propose MaskAnyNet, which combines masking with a relearning mechanism to exploit both visible and masked information. It can be easily extended to any model with an additional branch to jointly learn from the recomposed masked region. This approach leverages the semantic diversity of the masked regions to enrich features and preserve fine-grained details. Experiments on CNN and Transformer backbones show consistent gains across multiple benchmarks. Further analysis confirms that the proposed method improves semantic diversity through the reuse of masked content.
- Abstract(参考訳): 教師付き学習では、伝統的なイメージマスキングは2つの大きな問題に直面している。
(i)廃棄された画素は、使用されていないため、貴重な文脈情報が失われる。
(二)マスキングは、特にきめ細かなタスクにおいて、小さな、または重要な特徴を除去することができる。
対照的に、マスク付き画像モデリング(MIM)は、マスク付き領域を部分的な入力から再構成できることを示し、不完全なデータであっても元の画像と強いコンテキスト整合性を示すことを示した。
このことは、意味多様性の源としてマスキングされた領域の可能性を強調している。
そこで我々は,画像マスキングのアプローチを再考し,マスク付きコンテンツを無視するのではなく補助的な知識として扱うことを提案する。
そこで本研究では,マスキングと学習機構を組み合わせたMaskAnyNetを提案する。
追加のブランチを持つ任意のモデルに容易に拡張でき、再合成されたマスク領域から共同で学習することができる。
このアプローチは、マスクされた領域のセマンティックな多様性を活用して、特徴を豊かにし、きめ細かい詳細を保存する。
CNNとTransformerのバックボーンの実験は、複数のベンチマークで一貫した利得を示している。
さらに,提案手法はマスキングコンテンツの再利用により意味的多様性を向上させることが確認された。
関連論文リスト
- From Pixels to Components: Eigenvector Masking for Visual Representation Learning [55.567395509598065]
画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:06:46Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MixMask: Revisiting Masking Strategy for Siamese ConvNets [23.946791390657875]
この研究は、textbfMixMaskと呼ばれる新しいフィリングベースのマスキング手法を導入している。
提案手法は,消去された領域を別の画像からのコンテンツに置き換えることにより,従来のマスキング手法で見られる情報の枯渇を効果的に解消する。
我々は,線形探索,半教師付きおよび教師付きファインタニング,オブジェクト検出,セグメンテーションなどの領域におけるフレームワークの性能向上を実証的に検証した。
論文 参考訳(メタデータ) (2022-10-20T17:54:03Z) - Semantic-guided Multi-Mask Image Harmonization [10.27974860479791]
セマンティック誘導型マルチマスク画像調和タスクを提案する。
本研究では,一連のオペレーターマスクを予測することにより,不調和な画像を編集する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-24T11:48:49Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。