論文の概要: Soft Equivariance Regularization for Invariant Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2603.06693v1
- Date: Wed, 04 Mar 2026 13:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.884087
- Title: Soft Equivariance Regularization for Invariant Self-Supervised Learning
- Title(参考訳): 変分自己教師付き学習のためのソフト等分散規則化
- Authors: Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee,
- Abstract要約: 自己教師付き学習(SSL)は通常、意味保存強化に不変な表現を学習する。
本研究では,不等分散と等分散を両立させるプラグイン正規化器であるソフト等分散正規化(SER)を提案する。
SERはサンプルごとの変換コードやラベルを学習/予測し、補助的な変換予測ヘッドを必要としない。
- 参考スコア(独自算出の注目度): 23.047550451521662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) typically learns representations invariant to semantic-preserving augmentations. While effective for recognition, enforcing strong invariance can suppress transformation-dependent structure that is useful for robustness to geometric perturbations and spatially sensitive transfer. A growing body of work, therefore, augments invariance-based SSL with equivariance objectives, but these objectives are often imposed on the same final representation. We empirically observe a trade-off in this coupled setting: pushing equivariance regularization toward deeper layers improves equivariance scores but degrades ImageNet-1k linear evaluation, motivating a layer-decoupled design. Motivated by this trade-off, we propose Soft Equivariance Regularization (SER), a plug-in regularizer that decouples where invariance and equivariance are enforced: we keep the base SSL objective unchanged on the final embedding, while softly encouraging equivariance on an intermediate spatial token map via analytically specified group actions $ρ_g$ applied directly in feature space. SER learns/predicts no per-sample transformation codes/labels, requires no auxiliary transformation-prediction head, and adds only 1.008x training FLOPs. On ImageNet-1k ViT-S/16 pretraining, SER improves MoCo-v3 by +0.84 Top-1 in linear evaluation under a strictly matched 2-view setting and consistently improves DINO and Barlow Twins; under matched view counts, SER achieves the best ImageNet-1k linear-eval Top-1 among the compared invariance+equivariance add-ons. SER further improves ImageNet-C/P by +1.11/+1.22 Top-1 and frozen-backbone COCO detection by +1.7 mAP. Finally, applying the same layer-decoupling recipe to existing invariance+equivariance baselinesimproves their accuracy, suggesting layer decoupling as a general design principle for combining invariance and equivariance.
- Abstract(参考訳): 自己教師付き学習(SSL)は通常、意味保存強化に不変な表現を学習する。
認識には有効であるが、強い不変性を強制することは、幾何学的摂動に対する堅牢性や空間的に敏感な伝達に有用な変換依存構造を抑制することができる。
したがって、増大する作業の主体は不変性に基づくSSLを均等な目的で強化するが、これらの目的はしばしば同じ最終表現に課される。
より深い層への等分散正則化を推し進めることで、等分散スコアは向上するが、ImageNet-1k線形評価は低下し、層分離設計の動機となる。
このトレードオフに動機づけられたSER (Soft Equivariance Regularization) は,不等式と等式が適用される場所を分離するプラグイン正規化器である。我々は,基本SSLの目的を最終埋め込みで一定に保ちつつ,解析的に指定されたグループアクション$ρ_g$を特徴空間に直接適用することで,中間空間トークンマップ上での等式をソフトに奨励する。
SERはサンプルごとの変換コードやラベルを学習/予測し、補助的な変換予測ヘッドを必要としない。
ImageNet-1k ViT-S/16事前トレーニングでは、SERは厳密にマッチした2ビュー設定でMoCo-v3を+0.84 Top-1に改善し、DINOとBarlow Twinsを一貫して改善する。
SERはさらにImageNet-C/Pを+1.11/+1.22 Top-1で改善し、冷凍バックボーンCOCOを+1.7 mAPで検出した。
最後に,同層分離法を既存不分散+等分散ベースラインに適用すると,その精度が向上し,不分散と等分散を組み合わせるための一般的な設計原理として層分離法が提案される。
関連論文リスト
- When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning [0.0]
コントラストフォワード(Contrastive Forward-Forward, CFF)学習は、教師付きコントラスト目標に対して、ビジョントランスフォーマーを層別に層状化する。
比較損失における正対辺のマージンは、類似度クランプの飽和により適用される。
対数確率の後にマージンを減じる別の定式化が、平均-上-正の還元の下で勾配ニュートラルであることを証明する。
論文 参考訳(メタデータ) (2026-03-01T07:00:38Z) - SEIS: Subspace-based Equivariance and Invariance Scores for Neural Representations [1.2431372110088466]
幾何学的変換の下で階層的特徴表現を解析するためのサブスペースメトリックであるSEISを紹介する。
合成検証は、SEISが既知の変換を正しく回復することを確認する。
マルチタスク学習は、共有エンコーダにおける両方の特性の相乗効果を誘導することを示す。
論文 参考訳(メタデータ) (2026-02-03T22:38:08Z) - Information Hidden in Gradients of Regression with Target Noise [2.8911861322232686]
勾配だけでヘッセンが明らかになることを示す。
我々はガウス以下の入力の下で非漸近作用素ノルム保証を提供する。
論文 参考訳(メタデータ) (2026-01-26T14:50:16Z) - Truly Scale-Equivariant Deep Nets with Fourier Layers [14.072558848402362]
コンピュータビジョンでは、モデルが画像の解像度の変化に適応し、画像分割などのタスクを効果的に実行できなければならない。
最近の研究は、ウェイトシェアリングとカーネルのリサイズを通じて、スケール平等な畳み込みニューラルネットワークの開発を進展させた。
本稿では,Fourier層に基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-06T07:32:27Z) - Equivariant Similarity for Vision-Language Foundation Models [134.77524524140168]
本研究は、主要な訓練目的だけでなく、下流タスクをサポートするためのコアデリバリであるマルチモーダル類似性関数に焦点を当てる。
一致した2組のトレーニングペアから効率よく計算できる正規化損失であるEqSimを提案する。
既存の評価セットと比較すると、EqBenは"視覚的最小限の変化"に最初に焦点を当てている。
論文 参考訳(メタデータ) (2023-03-25T13:22:56Z) - Soft Augmentation for Image Classification [68.71067594724663]
本稿では,変分変換による拡張の一般化とソフト拡張を提案する。
ソフトターゲットは、より攻撃的なデータ拡張を可能にすることを示す。
また,ソフト拡張が自己教師付き分類タスクに一般化されることも示している。
論文 参考訳(メタデータ) (2022-11-09T01:04:06Z) - Regularising for invariance to data augmentation improves supervised
learning [82.85692486314949]
入力毎に複数の拡張を使用すれば、一般化が向上することを示す。
本稿では,個々のモデル予測のレベルにおいて,この不変性を助長する明示的な正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T11:25:45Z) - Improving the Sample-Complexity of Deep Classification Networks with
Invariant Integration [77.99182201815763]
変換によるクラス内分散に関する事前知識を活用することは、ディープニューラルネットワークのサンプル複雑性を改善するための強力な方法である。
そこで本研究では,アプリケーションの複雑な問題に対処するために,プルーニング法に基づく新しい単項選択アルゴリズムを提案する。
本稿では,Rotated-MNIST,SVHN,CIFAR-10データセットにおけるサンプルの複雑さの改善について述べる。
論文 参考訳(メタデータ) (2022-02-08T16:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。