論文の概要: Preventing Dimensional Collapse in Self-Supervised Learning via Orthogonality Regularization
- arxiv url: http://arxiv.org/abs/2411.00392v1
- Date: Fri, 01 Nov 2024 06:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:36.558931
- Title: Preventing Dimensional Collapse in Self-Supervised Learning via Orthogonality Regularization
- Title(参考訳): 直交正規化による自己指導型学習における次元崩壊防止
- Authors: Junlin He, Jinxiao Du, Wei Ma,
- Abstract要約: 自己教師付き学習(SSL)は近年急速に進歩し、教師付き学習のパフォーマンスに近づいている。
数個の大きな固有値が固有空間を支配する次元崩壊は、SSLにとって重要な障害となる。
- 参考スコア(独自算出の注目度): 9.823816643319448
- License:
- Abstract: Self-supervised learning (SSL) has rapidly advanced in recent years, approaching the performance of its supervised counterparts through the extraction of representations from unlabeled data. However, dimensional collapse, where a few large eigenvalues dominate the eigenspace, poses a significant obstacle for SSL. When dimensional collapse occurs on features (e.g. hidden features and representations), it prevents features from representing the full information of the data; when dimensional collapse occurs on weight matrices, their filters are self-related and redundant, limiting their expressive power. Existing studies have predominantly concentrated on the dimensional collapse of representations, neglecting whether this can sufficiently prevent the dimensional collapse of the weight matrices and hidden features. To this end, we first time propose a mitigation approach employing orthogonal regularization (OR) across the encoder, targeting both convolutional and linear layers during pretraining. OR promotes orthogonality within weight matrices, thus safeguarding against the dimensional collapse of weight matrices, hidden features, and representations. Our empirical investigations demonstrate that OR significantly enhances the performance of SSL methods across diverse benchmarks, yielding consistent gains with both CNNs and Transformer-based architectures.
- Abstract(参考訳): 自己教師付き学習(SSL)は近年急速に進歩し、ラベルのないデータから表現を抽出することで教師付き学習のパフォーマンスに近づきつつある。
しかし、いくつかの大きな固有値が固有空間を支配する次元崩壊は、SSLにとって重要な障害となる。
特徴(例えば隠れた特徴や表現)に次元的崩壊が発生すると、データの完全な情報を表現することが防止され、重み行列に次元的崩壊が発生すると、そのフィルタは自己関連的で冗長であり、表現力を制限する。
既存の研究は主に表現の次元的崩壊に集中しており、それが重量行列と隠れた特徴の次元的崩壊を十分に防ぐことができるかどうかを無視している。
この目的のために,我々はまず,エンコーダ間の直交正則化(OR)を用いた緩和手法を提案し,事前学習中の畳み込み層と線形層の両方を対象とする。
ORは重量行列内の直交性を促進するため、重量行列、隠れた特徴、表現の次元的崩壊に対して保護する。
我々の経験的調査では、ORはさまざまなベンチマークでSSLメソッドのパフォーマンスを著しく向上させ、CNNとTransformerベースのアーキテクチャで一貫した利益をもたらしている。
関連論文リスト
- Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - WERank: Towards Rank Degradation Prevention for Self-Supervised Learning
Using Weight Regularization [5.484161990886851]
本稿では,ネットワークの重みパラメータの新しい正規化器であるWERankを提案する。
We empirically demonstrated that WERank is effective to help BYOL to achieve higher rank during SSL pre-training and result downstream accuracy during evaluation probing。
論文 参考訳(メタデータ) (2024-02-14T21:29:28Z) - Scalable manifold learning by uniform landmark sampling and constrained
locally linear embedding [0.6144680854063939]
本研究では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習法を提案する。
異なるタイプの合成データセットと実世界のベンチマークにおけるSCMLの有効性を実証的に検証した。
scMLはデータサイズや埋め込み次元の増大とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-02T08:43:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Preventing Dimensional Collapse of Incomplete Multi-View Clustering via
Direct Contrastive Learning [0.14999444543328289]
我々は、新しい不完全なマルチビューコントラストクラスタリングフレームワークを提案する。
プロジェクションヘッドに頼ることなく、次元の崩壊を効果的に回避する。
5つのパブリックデータセット上で、最先端のクラスタリング結果を達成する。
論文 参考訳(メタデータ) (2023-03-22T00:21:50Z) - Sufficient dimension reduction for feature matrices [3.04585143845864]
そこで本研究では,主支持行列マシン (PSMM) を用いた行列次元削減手法を提案する。
数値解析により、PSMMは既存の手法よりも優れ、実データアプリケーションでは高い解釈性を有することが示された。
論文 参考訳(メタデータ) (2023-03-07T23:16:46Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - High-dimensional separability for one- and few-shot learning [58.8599521537]
この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。
特殊な外部デバイスである修正器が開発されている。従来のAIシステムを変更することなく、迅速かつ非イテレーティブなシステム修正を提供する必要がある。
AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。
論文 参考訳(メタデータ) (2021-06-28T14:58:14Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。