Fugu-MT 論文翻訳(概要): Addressing Sample Inefficiency in Multi-View Representation Learning

論文の概要: Addressing Sample Inefficiency in Multi-View Representation Learning

arxiv url: http://arxiv.org/abs/2312.10725v1
Date: Sun, 17 Dec 2023 14:14:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 14:59:26.607737
Title: Addressing Sample Inefficiency in Multi-View Representation Learning
Title（参考訳）: 多視点表現学習におけるサンプル非効率の対応
Authors: Kumar Krishna Agrawal, Arna Ghosh, Adam Oberman, Blake Richards
Abstract要約: 非コントラスト型自己教師型学習(NC-SSL)法は,コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。我々は、バーローツインズとVICReg損失の暗黙の偏見に関する理論的洞察を提供し、これらを説明し、より原則化されたレコメンデーションの開発を導くことができる。
参考スコア（独自算出の注目度）: 6.621303125642322
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Non-contrastive self-supervised learning (NC-SSL) methods like BarlowTwins and VICReg have shown great promise for label-free representation learning in computer vision. Despite the apparent simplicity of these techniques, researchers must rely on several empirical heuristics to achieve competitive performance, most notably using high-dimensional projector heads and two augmentations of the same image. In this work, we provide theoretical insights on the implicit bias of the BarlowTwins and VICReg loss that can explain these heuristics and guide the development of more principled recommendations. Our first insight is that the orthogonality of the features is more critical than projector dimensionality for learning good representations. Based on this, we empirically demonstrate that low-dimensional projector heads are sufficient with appropriate regularization, contrary to the existing heuristic. Our second theoretical insight suggests that using multiple data augmentations better represents the desiderata of the SSL objective. Based on this, we demonstrate that leveraging more augmentations per sample improves representation quality and trainability. In particular, it improves optimization convergence, leading to better features emerging earlier in the training. Remarkably, we demonstrate that we can reduce the pretraining dataset size by up to 4x while maintaining accuracy and improving convergence simply by using more data augmentations. Combining these insights, we present practical pretraining recommendations that improve wall-clock time by 2x and improve performance on CIFAR-10/STL-10 datasets using a ResNet-50 backbone. Thus, this work provides a theoretical insight into NC-SSL and produces practical recommendations for enhancing its sample and compute efficiency.
Abstract（参考訳）: BarlowTwins や VICReg のような非コントラスト型自己教師学習(NC-SSL)手法は、コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。これらの技術の明らかな単純さにもかかわらず、研究者は競争性能を達成するためにいくつかの経験的ヒューリスティックに頼らなければならない。本研究では,これらのヒューリスティックスを説明するとともに,より原則的なレコメンデーションの開発を導くために,バーロウトウィンの暗黙のバイアスとビクレーグの損失に関する理論的知見を提供する。私たちの最初の洞察は、優れた表現を学ぶために、特徴の直交性はプロジェクター次元よりも重要であるということです。これに基づいて、我々は既存のヒューリスティックとは対照的に、低次元プロジェクターヘッドが適切な正規化に十分であることを示す。 2つ目の理論的洞察は、複数のデータ拡張を使用することがSSLの目的のデシラタをよりよく表していることを示唆しています。この結果から,1サンプルあたりの増減量を活用することで,表現品質とトレーニング性が向上することを示す。特に最適化の収束性が向上し、トレーニングの早い段階で新機能が出現する。注目すべきなのは,データセットの事前トレーニングサイズを最大4倍に削減し,精度を維持しつつ,データ拡張を単純に利用することによってコンバージェンスを改善することができることだ。これらの知見を組み合わせることで,壁時計時間の2倍向上と,resnet-50バックボーンを用いたcifar-10/stl-10データセットの性能向上を実現した,実用的な事前トレーニングレコメンデーションを提案する。したがって、この研究はnc-sslに関する理論的洞察を提供し、そのサンプルと計算効率を向上させるための実用的な推奨を与える。

関連論文リスト

Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文参考訳（メタデータ） (2024-10-25T20:50:32Z)
TwinCL: A Twin Graph Contrastive Learning Model for Collaborative Filtering [20.26347686022996]
本研究では,従来の拡張手法の冗長性を実証し,ランダム拡張の代わりにツインエンコーダを導入する。提案したTwin Graph Contrastive Learningモデル -- TwinCL -- は、ユーザとアイテムの埋め込みとツインエンコーダからの表現の正のペアを調整する。理論的解析と実験結果から,提案モデルが推薦精度の向上と学習効率の向上に寄与することが示された。
論文参考訳（メタデータ） (2024-09-27T22:31:08Z)
On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文参考訳（メタデータ） (2024-04-30T06:39:04Z)
Investigating the Benefits of Projection Head for Representation Learning [11.20245728716827]
高品質な表現を得るための効果的なテクニックは、トレーニング中にエンコーダの上にプロジェクションヘッドを追加し、それを破棄し、プリプロジェクション表現を使用することである。プロジェクション前表現は損失関数によって直接最適化されていない。トレーニングアルゴリズムの暗黙のバイアスは、階層的にプログレッシブな機能の重み付けにつながり、レイヤーに深く入り込むにつれて、機能がますます不平等になることを示している。
論文参考訳（メタデータ） (2024-03-18T00:48:58Z)
Random Linear Projections Loss for Hyperplane-Based Optimization in Neural Networks [22.348887008547653]
この研究はRandom Linear Projections (RLP)損失を導入し、これはデータ内の幾何学的関係を利用してトレーニング効率を向上させる新しいアプローチである。ベンチマークデータセットと合成例を用いて実施した経験的評価では、従来の損失関数でトレーニングされたニューラルネットワークは、従来の損失関数でトレーニングされたニューラルネットワークよりも優れていたことが示されている。
論文参考訳（メタデータ） (2023-11-21T05:22:39Z)
Gradient constrained sharpness-aware prompt learning for vision-language models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-14T17:13:54Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-06-12T15:52:02Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文参考訳（メタデータ） (2022-11-18T02:00:17Z)
Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文参考訳（メタデータ） (2022-09-22T10:18:59Z)
Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文参考訳（メタデータ） (2022-08-25T21:08:01Z)
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding [131.0977050185209]
Selective Retraining (SiRi)は3つの人気のあるベンチマークにおいて、従来のアプローチよりも大幅に優れている。 SiRiは、限られたトレーニングデータでも驚くほど優れている。また,その妥当性を検証するために,トランスフォーマーベース視覚接地モデルや他の視覚言語タスクにも拡張する。
論文参考訳（メタデータ） (2022-07-27T07:01:01Z)
Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels? [42.404871049605084]
SSLとRLの損失を共同で最適化するコントラスト強化学習フレームワーク(例:CURL)を拡張します。我々の観察では、既存のRLのSSLフレームワークは、ベースラインよりも有意義な改善をもたらしていないことを示唆している。実際のロボット環境を含む複数の異なる環境におけるアプローチの評価を行った。
論文参考訳（メタデータ） (2022-06-10T17:59:30Z)
CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。 CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文参考訳（メタデータ） (2022-05-02T14:42:05Z)
Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文参考訳（メタデータ） (2021-12-10T20:46:13Z)
Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文参考訳（メタデータ） (2021-04-06T07:24:58Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文参考訳（メタデータ） (2020-02-13T18:50:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。