論文の概要: On the Pros and Cons of Momentum Encoder in Self-Supervised Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2208.05744v1
- Date: Thu, 11 Aug 2022 10:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:18:19.823439
- Title: On the Pros and Cons of Momentum Encoder in Self-Supervised Visual
Representation Learning
- Title(参考訳): 自己監督型視覚表現学習におけるモメンタムエンコーダの長所と短所について
- Authors: Trung Pham, Chaoning Zhang, Axi Niu, Kang Zhang, Chang D. Yoo
- Abstract要約: 指数移動平均(EMA)は、現代の自己教師付き学習(SSL)アプローチで広く使われている。
性能向上のために,SimCLRのようなモメンタフリーSSLフレームワークにそのようなモメンタブルをプラグインすることもできることを実証する。
- 参考スコア(独自算出の注目度): 23.088279090004107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exponential Moving Average (EMA or momentum) is widely used in modern
self-supervised learning (SSL) approaches, such as MoCo, for enhancing
performance. We demonstrate that such momentum can also be plugged into
momentum-free SSL frameworks, such as SimCLR, for a performance boost. Despite
its wide use as a fundamental component in modern SSL frameworks, the benefit
caused by momentum is not well understood. We find that its success can be at
least partly attributed to the stability effect. In the first attempt, we
analyze how EMA affects each part of the encoder and reveal that the portion
near the encoder's input plays an insignificant role while the latter parts
have much more influence. By monitoring the gradient of the overall loss with
respect to the output of each block in the encoder, we observe that the final
layers tend to fluctuate much more than other layers during backpropagation,
i.e. less stability. Interestingly, we show that using EMA to the final part of
the SSL encoder, i.e. projector, instead of the whole deep network encoder can
give comparable or preferable performance. Our proposed projector-only momentum
helps maintain the benefit of EMA but avoids the double forward computation.
- Abstract(参考訳): 指数移動平均 (Exponential moving Average, EMA) は、MoCoのような現代の自己教師型学習 (SSL) アプローチにおいて、性能向上に広く利用されている。
性能向上のために,SimCLRのようなモメンタフリーSSLフレームワークにそのようなモメンタブルをプラグインすることも実証した。
現代のSSLフレームワークの基本コンポーネントとして広く使われているが、勢いによるメリットはよく理解されていない。
その成功は少なくとも部分的には安定性の影響による可能性がある。
最初の試みでは、EMAがエンコーダの各部分にどのように影響するかを分析し、エンコーダの入力付近の部分が重要な役割を果たすのに対して、後者の部分は影響が大きいことを明らかにした。
エンコーダ内の各ブロックの出力に対する全体的な損失の勾配を監視することにより、最終層がバックプロパゲーション中に他の層よりも大きく変動する傾向、すなわち安定性の低下が観察される。
興味深いことに、SSLエンコーダの最終部分、すなわちプロジェクタにEMAを使用することで、ディープネットワークエンコーダに匹敵する、あるいは好ましいパフォーマンスが得られる。
提案するプロジェクタのみの運動量は、EMAの利点を維持するのに役立ち、ダブルフォワード計算を避ける。
関連論文リスト
- Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。
我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。
E-SSLの実用設計の原則をいくつか明らかにする。
論文 参考訳(メタデータ) (2024-11-10T16:09:47Z) - Whitening Consistently Improves Self-Supervised Learning [5.0337106694127725]
自己教師型学習におけるエンコーダの最終層としてZCA白化を導入することを提案する。
実験の結果,白化は線形およびk-NN探索精度を1-5%向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-08-14T12:52:13Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised Temporal Action Segmentation [53.010417880335424]
半教師付き時間的アクションセグメンテーション(SS-TA)は、長編ビデオにおいてフレームワイズ分類を行うことを目的としている。
近年の研究では、教師なし表現学習におけるコントラスト学習の可能性が示されている。
本稿では,SMC-NCA(Neighbourhood-Consistency-Aware Unit)を用いたセマンティック誘導型マルチレベルコントラスト方式を提案する。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Self-Supervised Visual Representation Learning via Residual Momentum [15.515169550346517]
自己教師付き学習(SSL)アプローチは、ラベルのないデータから表現を学ぶ上で有望な能力を示している。
モーメントベースのSSLフレームワークは、オンラインエンコーダ(学生)とモーメントエンコーダ(教師)の間の大きなギャップに悩まされる
この論文は、この見えないギャップを既存のSSLフレームワークで見過ごされているボトルネックとして調査し、特定した最初のものである。
本研究では,このギャップを減らし,教師に近い表現をできる限り学習するよう学生に促す「残留運動量」を提案する。
論文 参考訳(メタデータ) (2022-11-17T19:54:02Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action
Localization [96.73647162960842]
TALはビデオ理解の基本的な課題だが、難しい課題だ。
既存のtalメソッドは、アクション分類の監督を通じてビデオエンコーダを事前トレーニングする。
本稿では,ローファイダリティ・エンド・ツー・エンド(LoFi)ビデオエンコーダの事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-28T22:18:14Z) - Back to the Future: Cycle Encoding Prediction for Self-supervised
Contrastive Video Representation Learning [14.212559301655997]
サイクル予測は、未ラベル映像の高レベルな構造を表す。
自己超越信号として、CEPはビデオストリームの双方向時間コヒーレンスを利用する。
標準データセット UCF101 と HMDB51 の精度は大幅に向上した。
論文 参考訳(メタデータ) (2020-10-14T16:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。