論文の概要: Harnessing small projectors and multiple views for efficient vision pretraining
- arxiv url: http://arxiv.org/abs/2312.10725v2
- Date: Fri, 17 Jan 2025 07:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:30.684690
- Title: Harnessing small projectors and multiple views for efficient vision pretraining
- Title(参考訳): 視覚前訓練のための小型プロジェクタのハーネス化と複数視点
- Authors: Kumar Krishna Agrawal, Arna Ghosh, Shagun Sodhani, Adam Oberman, Blake Richards,
- Abstract要約: 我々は、競争力と効率的な視覚表現学習のための実用的なレコメンデーションを設計するために、最近の分析結果に基づいて構築する。
この理想化された損失を、より効率的に計算できる機能的に等価な損失にどのように再構成できるかを示す。
我々は,CIFAR,STL,Imagenetのデータセットについて実験により検証した。
- 参考スコア(独自算出の注目度): 11.325655646957186
- License:
- Abstract: Recent progress in self-supervised (SSL) visual representation learning has led to the development of several different proposed frameworks that rely on augmentations of images but use different loss functions. However, there are few theoretically grounded principles to guide practice, so practical implementation of each SSL framework requires several heuristics to achieve competitive performance. In this work, we build on recent analytical results to design practical recommendations for competitive and efficient SSL that are grounded in theory. Specifically, recent theory tells us that existing SSL frameworks are minimizing the same idealized loss, which is to learn features that best match the data similarity kernel defined by the augmentations used. We show how this idealized loss can be reformulated to a functionally equivalent loss that is more efficient to compute. We study the implicit bias of using gradient descent to minimize our reformulated loss function and find that using a stronger orthogonalization constraint with a reduced projector dimensionality should yield good representations. Furthermore, the theory tells us that approximating the reformulated loss should be improved by increasing the number of augmentations, and as such using multiple augmentations should lead to improved convergence. We empirically verify our findings on CIFAR, STL and Imagenet datasets, wherein we demonstrate an improved linear readout performance when training a ResNet-backbone using our theoretically grounded recommendations. Remarkably, we also demonstrate that by leveraging these insights, we can reduce the pretraining dataset size by up to 2$\times$ while maintaining downstream accuracy simply by using more data augmentations. Taken together, our work provides theoretically grounded recommendations that can be used to improve SSL convergence and efficiency.
- Abstract(参考訳): 自己教師付き(SSL)視覚表現学習の最近の進歩は、画像の拡張に依存するが、異なる損失関数を使用するいくつかの異なるフレームワークの開発につながっている。
しかし、実践を導くための理論的根拠は少ないため、SSLフレームワークの実践的な実装には、競争性能を達成するためにいくつかのヒューリスティックが必要である。
本研究では,最近の解析結果に基づいて,理論上基礎を成す競争的で効率的なSSLのための実用的なレコメンデーションを設計する。
特に、最近の理論では、既存のSSLフレームワークは同じ理想化された損失を最小化しており、これは、使用した拡張によって定義されたデータ類似性カーネルに最もよくマッチする機能を学ぶことである。
この理想化された損失を、より効率的に計算できる機能的に等価な損失にどのように再構成できるかを示す。
本研究は, 勾配勾配勾配による損失関数の最小化に関する暗黙バイアスについて検討し, プロジェクター次元を縮小した強い直交化制約を用いることで, よい表現が得られることを見出した。
さらに, 改良された損失の近似は, 増補数の増加によって改善されるべきであり, 多重増補による収束性の向上が期待できる。
我々は、CIFAR、STL、Imagenetデータセットに関する我々の知見を実証的に検証し、理論的に根拠付けられたレコメンデーションを用いてResNetバックボーンをトレーニングする際の線形読み出し性能の改善を実証した。
注目すべきは、これらの洞察を活用することで、より多くのデータ拡張を使用することで、下流の精度を維持しながら、トレーニング済みデータセットのサイズを最大2$\times$まで削減できるということです。
私たちの研究は、SSLの収束と効率を改善するために使用できる理論的に根拠づけられたレコメンデーションを提供します。
関連論文リスト
- TwinCL: A Twin Graph Contrastive Learning Model for Collaborative Filtering [20.26347686022996]
本研究では,従来の拡張手法の冗長性を実証し,ランダム拡張の代わりにツインエンコーダを導入する。
提案したTwin Graph Contrastive Learningモデル -- TwinCL -- は、ユーザとアイテムの埋め込みとツインエンコーダからの表現の正のペアを調整する。
理論的解析と実験結果から,提案モデルが推薦精度の向上と学習効率の向上に寄与することが示された。
論文 参考訳(メタデータ) (2024-09-27T22:31:08Z) - Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。
プロジェクション前表現は損失関数によって直接最適化されていない。
トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文 参考訳(メタデータ) (2024-03-18T00:48:58Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - SiRi: A Simple Selective Retraining Mechanism for Transformer-based
Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。
SiRiは、限られたトレーニングデータでも驚くほど優れている。
また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文 参考訳(メタデータ) (2022-07-27T07:01:01Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。