論文の概要: Addressing Sample Inefficiency in Multi-View Representation Learning
- arxiv url: http://arxiv.org/abs/2312.10725v1
- Date: Sun, 17 Dec 2023 14:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:59:26.607737
- Title: Addressing Sample Inefficiency in Multi-View Representation Learning
- Title(参考訳): 多視点表現学習におけるサンプル非効率の対応
- Authors: Kumar Krishna Agrawal, Arna Ghosh, Adam Oberman, Blake Richards
- Abstract要約: 非コントラスト型自己教師型学習(NC-SSL)法は,コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。
我々は、バーローツインズとVICReg損失の暗黙の偏見に関する理論的洞察を提供し、これらを説明し、より原則化されたレコメンデーションの開発を導くことができる。
- 参考スコア(独自算出の注目度): 6.621303125642322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Non-contrastive self-supervised learning (NC-SSL) methods like BarlowTwins
and VICReg have shown great promise for label-free representation learning in
computer vision. Despite the apparent simplicity of these techniques,
researchers must rely on several empirical heuristics to achieve competitive
performance, most notably using high-dimensional projector heads and two
augmentations of the same image. In this work, we provide theoretical insights
on the implicit bias of the BarlowTwins and VICReg loss that can explain these
heuristics and guide the development of more principled recommendations. Our
first insight is that the orthogonality of the features is more critical than
projector dimensionality for learning good representations. Based on this, we
empirically demonstrate that low-dimensional projector heads are sufficient
with appropriate regularization, contrary to the existing heuristic. Our second
theoretical insight suggests that using multiple data augmentations better
represents the desiderata of the SSL objective. Based on this, we demonstrate
that leveraging more augmentations per sample improves representation quality
and trainability. In particular, it improves optimization convergence, leading
to better features emerging earlier in the training. Remarkably, we demonstrate
that we can reduce the pretraining dataset size by up to 4x while maintaining
accuracy and improving convergence simply by using more data augmentations.
Combining these insights, we present practical pretraining recommendations that
improve wall-clock time by 2x and improve performance on CIFAR-10/STL-10
datasets using a ResNet-50 backbone. Thus, this work provides a theoretical
insight into NC-SSL and produces practical recommendations for enhancing its
sample and compute efficiency.
- Abstract(参考訳): BarlowTwins や VICReg のような非コントラスト型自己教師学習(NC-SSL)手法は、コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。
これらの技術の明らかな単純さにもかかわらず、研究者は競争性能を達成するためにいくつかの経験的ヒューリスティックに頼らなければならない。
本研究では,これらのヒューリスティックスを説明するとともに,より原則的なレコメンデーションの開発を導くために,バーロウトウィンの暗黙のバイアスとビクレーグの損失に関する理論的知見を提供する。
私たちの最初の洞察は、優れた表現を学ぶために、特徴の直交性はプロジェクター次元よりも重要であるということです。
これに基づいて、我々は既存のヒューリスティックとは対照的に、低次元プロジェクターヘッドが適切な正規化に十分であることを示す。
2つ目の理論的洞察は、複数のデータ拡張を使用することがSSLの目的のデシラタをよりよく表していることを示唆しています。
この結果から,1サンプルあたりの増減量を活用することで,表現品質とトレーニング性が向上することを示す。
特に最適化の収束性が向上し、トレーニングの早い段階で新機能が出現する。
注目すべきなのは,データセットの事前トレーニングサイズを最大4倍に削減し,精度を維持しつつ,データ拡張を単純に利用することによってコンバージェンスを改善することができることだ。
これらの知見を組み合わせることで,壁時計時間の2倍向上と,resnet-50バックボーンを用いたcifar-10/stl-10データセットの性能向上を実現した,実用的な事前トレーニングレコメンデーションを提案する。
したがって、この研究はnc-sslに関する理論的洞察を提供し、そのサンプルと計算効率を向上させるための実用的な推奨を与える。
関連論文リスト
- Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Light-weight probing of unsupervised representations for Reinforcement
Learning [10.642105903491421]
分散度が低く,計算コストが最大600倍の教師なし視覚表現の評価プロトコルを提案する。
本研究では,ある状態における報酬の予測と,ある状態における専門家の行動の予測という2つの線形探索タスクを提案する。
厳密な実験により,Atari100kベンチマークの下流制御性能と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - Self-Distilled Self-Supervised Representation Learning [35.60243157730165]
自己教師付き学習における最先端のフレームワークは、トランスフォーマーベースのモデルを完全に活用することでパフォーマンスが向上することを示した。
本研究では, コントラッシブ・ロスにより, 中間表現が最終層から学習できるようにすることにより, さらにこれを活用する。
我々の手法であるSDSSL(Self-Distilled Self-Supervised Learning)は,様々なタスクやデータセット上でのViTを用いた競争ベースライン(SimCLR, BYOL, MoCo v3)より優れています。
論文 参考訳(メタデータ) (2021-11-25T07:52:36Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。