論文の概要: Improving Nonlinear Projection Heads using Pretrained Autoencoder Embeddings
- arxiv url: http://arxiv.org/abs/2408.14514v1
- Date: Sun, 25 Aug 2024 11:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:51:49.030634
- Title: Improving Nonlinear Projection Heads using Pretrained Autoencoder Embeddings
- Title(参考訳): 予め訓練された自己エンコーダ埋め込みによる非線形投影ヘッドの改善
- Authors: Andreas Schliebitz, Heiko Tapken, Martin Atzmueller,
- Abstract要約: 予め訓練されたオートエンコーダをプロジェクターに埋め込むことで、分類精度を平均で2.9%または1.7%まで向上させることができる。
また,プロジェクタ内のシグモイドとタンの活性化関数を用いることで,ピークおよび平均分類精度においてReLUより優れていることが示唆された。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This empirical study aims at improving the effectiveness of the standard 2-layer MLP projection head $g(\cdot)$ featured in the SimCLR framework through the use of pretrained autoencoder embeddings. Given a contrastive learning task with a largely unlabeled image classification dataset, we first train a shallow autoencoder architecture and extract its compressed representations contained in the encoder's embedding layer. After freezing the weights within this pretrained layer, we use it as a drop-in replacement for the input layer of SimCLR's default projector. Additionally, we also apply further architectural changes to the projector by decreasing its width and changing its activation function. The different projection heads are then used to contrastively train and evaluate a feature extractor $f(\cdot)$ following the SimCLR protocol, while also examining the performance impact of Z-score normalized datasets. Our experiments indicate that using a pretrained autoencoder embedding in the projector can not only increase classification accuracy by up to 2.9% or 1.7% on average but can also significantly decrease the dimensionality of the projection space. Our results also suggest, that using the sigmoid and tanh activation functions within the projector can outperform ReLU in terms of peak and average classification accuracy. When applying our presented projectors, then not applying Z-score normalization to datasets often increases peak performance. In contrast, the default projection head can benefit more from normalization. All experiments involving our pretrained projectors are conducted with frozen embeddings, since our test results indicate an advantage compared to using their non-frozen counterparts.
- Abstract(参考訳): この実験的な研究は、事前訓練されたオートエンコーダ埋め込みを用いて、SimCLRフレームワークで特徴付けられる標準の2層MLPプロジェクションヘッド$g(\cdot)$の有効性を改善することを目的としている。
ほとんどラベルのない画像分類データセットを用いた対照的な学習タスクを前提として、まず浅いオートエンコーダアーキテクチャをトレーニングし、エンコーダの埋め込み層に含まれる圧縮表現を抽出する。
この事前訓練されたレイヤ内の重みを凍結した後、SimCLRのデフォルトプロジェクタの入力レイヤのドロップイン代替として使用します。
さらに,プロジェクタの幅を小さくし,アクティベーション機能を変化させることで,プロジェクタにさらなるアーキテクチャ変更を加える。
次に、異なるプロジェクションヘッドを使用して、SimCLRプロトコルに従って特徴抽出器$f(\cdot)$を対照的にトレーニングし、評価すると同時に、Zスコア正規化データセットのパフォーマンスへの影響も調べる。
本実験は,プロジェクタに予め訓練したオートエンコーダを組み込むことで,平均で2.9%,1.7%の精度で分類できるだけでなく,プロジェクタ空間の寸法を著しく低減できることを示す。
また,プロジェクタ内のシグモイドとタンの活性化関数を用いることで,ピークおよび平均分類精度においてReLUより優れていることが示唆された。
提案するプロジェクタを適用する場合,データセットにZスコア正規化を適用しない場合には,ピーク性能が向上することが多い。
対照的に、デフォルトのプロジェクションヘッドは正規化の恩恵を受けることができる。
凍結したプロジェクターを用いた実験は, 凍結したプロジェクターを用いた場合と比較して, 凍結したプロジェクターを用いた場合に比べ, いずれの試験結果も有利であることが示唆された。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Unraveling Projection Heads in Contrastive Learning: Insights from
Expansion and Shrinkage [9.540723320001621]
本研究の目的は、プロジェクターで学習した表現が、その後に学習した表現よりも優れる観察現象をデミスティフィケートすることである。
我々は、プロジェクターに対する対照的な損失によって引き起こされる2つの重要な効果(膨張と収縮)を同定する。
本稿では,プロジェクタの挙動を正確にモデル化する線形プロジェクタ群を提案する。
論文 参考訳(メタデータ) (2023-06-06T01:13:18Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Understanding the Role of the Projector in Knowledge Distillation [22.698845243751293]
機能マッチングとメートル法学習問題としての知識蒸留の有効性を再考する。
我々は3つの重要な設計決定、すなわち正規化、ソフト最大関数、投影層を検証する。
ImageNetのDeiT-Tiで、77.2%のトップ1の精度を実現しました。
論文 参考訳(メタデータ) (2023-03-20T13:33:31Z) - Learnt Deep Hyperparameter selection in Adversarial Training for
compressed video enhancement with perceptual critic [0.0]
DFQM(Deep Feature Quality Metrics)は、従来のメトリクスよりも主観的知覚スコアと相関することが示されている。
本稿では,神経科学的な層行動解釈に基づいて,そのようなネットワークから知覚に関連のある層を選択する手法を提案する。
その結果,これらの特徴を批評家に導入すると,10% (FID) と15% (KID) のパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-02-28T12:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。