論文の概要: From Pixels to Components: Eigenvector Masking for Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2502.06314v2
- Date: Tue, 11 Feb 2025 16:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:33.832088
- Title: From Pixels to Components: Eigenvector Masking for Visual Representation Learning
- Title(参考訳): ピクセルからコンポーネントへ:視覚表現学習のための固有ベクトルマスキング
- Authors: Alice Bizeul, Thomas Sutter, Alain Ryser, Bernhard Schölkopf, Julius von Kügelgen, Julia E. Vogt,
- Abstract要約: 画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
- 参考スコア(独自算出の注目度): 55.567395509598065
- License:
- Abstract: Predicting masked from visible parts of an image is a powerful self-supervised approach for visual representation learning. However, the common practice of masking random patches of pixels exhibits certain failure modes, which can prevent learning meaningful high-level features, as required for downstream tasks. We propose an alternative masking strategy that operates on a suitable transformation of the data rather than on the raw pixels. Specifically, we perform principal component analysis and then randomly mask a subset of components, which accounts for a fixed ratio of the data variance. The learning task then amounts to reconstructing the masked components from the visible ones. Compared to local patches of pixels, the principal components of images carry more global information. We thus posit that predicting masked from visible components involves more high-level features, allowing our masking strategy to extract more useful representations. This is corroborated by our empirical findings which demonstrate improved image classification performance for component over pixel masking. Our method thus constitutes a simple and robust data-driven alternative to traditional masked image modeling approaches.
- Abstract(参考訳): 画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
しかし、画素のランダムパッチをマスキングする一般的なプラクティスは、特定の障害モードを示し、下流タスクに必要な意味のある高レベルの特徴を学習するのを防ぐことができる。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
具体的には、主成分分析を行い、データ分散の一定割合を占める成分のサブセットをランダムにマスキングする。
学習タスクは、目に見えるものからマスクされたコンポーネントを再構築する。
ピクセルの局所パッチと比較すると、画像の主要コンポーネントはよりグローバルな情報を持っている。
したがって、可視成分からマスキングを予測するには、より高レベルな特徴が伴うと仮定し、マスキング戦略がより有用な表現を抽出できるようにする。
これは,画素マスキングによる画像分類性能の向上を実証した実験結果と相関するものである。
そこで本稿では,従来のマスク画像モデリング手法に代わる,シンプルで堅牢なデータ駆動方式を提案する。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Efficient Vision-Language Pre-training by Cluster Masking [13.845233914223561]
本稿では,視覚的コントラスト学習における画像パッチのマスキング方法を提案する。
画像パッチをランダムにマスキングし,画像の画素強度を計測した。
これは、文脈からのみマスクされた視覚構造のための単語を予測することをモデルに強制するため、対照的なトレーニング自体を超えて、余分な学習信号を提供する。
論文 参考訳(メタデータ) (2024-05-14T17:59:40Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - Pixel Relationships-based Regularizer for Retinal Vessel Image
Segmentation [4.3251090426112695]
本研究は, 正則化器を用いて, 学習プロセスに画素近傍の関係情報を付与する。
実験により,提案手法は画素近傍関係の捕捉に成功し,畳み込みニューラルネットワークの性能向上を図っている。
論文 参考訳(メタデータ) (2022-12-28T07:35:20Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。