論文の概要: Addressing Sample Inefficiency in Multi-View Representation Learning
- arxiv url: http://arxiv.org/abs/2312.10725v1
- Date: Sun, 17 Dec 2023 14:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:59:26.607737
- Title: Addressing Sample Inefficiency in Multi-View Representation Learning
- Title(参考訳): 多視点表現学習におけるサンプル非効率の対応
- Authors: Kumar Krishna Agrawal, Arna Ghosh, Adam Oberman, Blake Richards
- Abstract要約: 非コントラスト型自己教師型学習(NC-SSL)法は,コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。
我々は、バーローツインズとVICReg損失の暗黙の偏見に関する理論的洞察を提供し、これらを説明し、より原則化されたレコメンデーションの開発を導くことができる。
- 参考スコア(独自算出の注目度): 6.621303125642322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Non-contrastive self-supervised learning (NC-SSL) methods like BarlowTwins
and VICReg have shown great promise for label-free representation learning in
computer vision. Despite the apparent simplicity of these techniques,
researchers must rely on several empirical heuristics to achieve competitive
performance, most notably using high-dimensional projector heads and two
augmentations of the same image. In this work, we provide theoretical insights
on the implicit bias of the BarlowTwins and VICReg loss that can explain these
heuristics and guide the development of more principled recommendations. Our
first insight is that the orthogonality of the features is more critical than
projector dimensionality for learning good representations. Based on this, we
empirically demonstrate that low-dimensional projector heads are sufficient
with appropriate regularization, contrary to the existing heuristic. Our second
theoretical insight suggests that using multiple data augmentations better
represents the desiderata of the SSL objective. Based on this, we demonstrate
that leveraging more augmentations per sample improves representation quality
and trainability. In particular, it improves optimization convergence, leading
to better features emerging earlier in the training. Remarkably, we demonstrate
that we can reduce the pretraining dataset size by up to 4x while maintaining
accuracy and improving convergence simply by using more data augmentations.
Combining these insights, we present practical pretraining recommendations that
improve wall-clock time by 2x and improve performance on CIFAR-10/STL-10
datasets using a ResNet-50 backbone. Thus, this work provides a theoretical
insight into NC-SSL and produces practical recommendations for enhancing its
sample and compute efficiency.
- Abstract(参考訳): BarlowTwins や VICReg のような非コントラスト型自己教師学習(NC-SSL)手法は、コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。
これらの技術の明らかな単純さにもかかわらず、研究者は競争性能を達成するためにいくつかの経験的ヒューリスティックに頼らなければならない。
本研究では,これらのヒューリスティックスを説明するとともに,より原則的なレコメンデーションの開発を導くために,バーロウトウィンの暗黙のバイアスとビクレーグの損失に関する理論的知見を提供する。
私たちの最初の洞察は、優れた表現を学ぶために、特徴の直交性はプロジェクター次元よりも重要であるということです。
これに基づいて、我々は既存のヒューリスティックとは対照的に、低次元プロジェクターヘッドが適切な正規化に十分であることを示す。
2つ目の理論的洞察は、複数のデータ拡張を使用することがSSLの目的のデシラタをよりよく表していることを示唆しています。
この結果から,1サンプルあたりの増減量を活用することで,表現品質とトレーニング性が向上することを示す。
特に最適化の収束性が向上し、トレーニングの早い段階で新機能が出現する。
注目すべきなのは,データセットの事前トレーニングサイズを最大4倍に削減し,精度を維持しつつ,データ拡張を単純に利用することによってコンバージェンスを改善することができることだ。
これらの知見を組み合わせることで,壁時計時間の2倍向上と,resnet-50バックボーンを用いたcifar-10/stl-10データセットの性能向上を実現した,実用的な事前トレーニングレコメンデーションを提案する。
したがって、この研究はnc-sslに関する理論的洞察を提供し、そのサンプルと計算効率を向上させるための実用的な推奨を与える。
関連論文リスト
- TwinCL: A Twin Graph Contrastive Learning Model for Collaborative Filtering [20.26347686022996]
本研究では,従来の拡張手法の冗長性を実証し,ランダム拡張の代わりにツインエンコーダを導入する。
提案したTwin Graph Contrastive Learningモデル -- TwinCL -- は、ユーザとアイテムの埋め込みとツインエンコーダからの表現の正のペアを調整する。
理論的解析と実験結果から,提案モデルが推薦精度の向上と学習効率の向上に寄与することが示された。
論文 参考訳(メタデータ) (2024-09-27T22:31:08Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。