論文の概要: On the Importance of Hyperparameters and Data Augmentation for
Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2207.07875v1
- Date: Sat, 16 Jul 2022 08:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:15:14.855575
- Title: On the Importance of Hyperparameters and Data Augmentation for
Self-Supervised Learning
- Title(参考訳): 自己指導型学習におけるハイパーパラメータの重要性とデータ拡張について
- Authors: Diane Wagner, Fabio Ferreira, Danny Stoll, Robin Tibor Schirrmeister,
Samuel M\"uller, Frank Hutter
- Abstract要約: 自己監視学習(SSL)はディープラーニング研究の非常に活発な領域となり、分類やその他のタスクの事前学習方法として広く利用されている。
ここでは、実際、ハイパーパラメータとデータ拡張戦略の選択は、パフォーマンスに劇的な影響を与える可能性があることを示す。
我々は,グループ間のサンプリングを最適化するグループ拡張アルゴリズム,GroupAugmentを導入する。
- 参考スコア(独自算出の注目度): 32.53142486214591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Learning (SSL) has become a very active area of Deep Learning
research where it is heavily used as a pre-training method for classification
and other tasks. However, the rapid pace of advancements in this area comes at
a price: training pipelines vary significantly across papers, which presents a
potentially crucial confounding factor. Here, we show that, indeed, the choice
of hyperparameters and data augmentation strategies can have a dramatic impact
on performance. To shed light on these neglected factors and help maximize the
power of SSL, we hyperparameterize these components and optimize them with
Bayesian optimization, showing improvements across multiple datasets for the
SimSiam SSL approach. Realizing the importance of data augmentations for SSL,
we also introduce a new automated data augmentation algorithm, GroupAugment,
which considers groups of augmentations and optimizes the sampling across
groups. In contrast to algorithms designed for supervised learning,
GroupAugment achieved consistently high linear evaluation accuracy across all
datasets we considered. Overall, our results indicate the importance and likely
underestimated role of data augmentation for SSL.
- Abstract(参考訳): 自己監視学習(SSL)はディープラーニング研究の非常に活発な領域となり、分類やその他のタスクの事前学習方法として広く利用されている。
しかし、この分野の急速な進歩のペースは価格に比例し、訓練パイプラインは書類によって大きく異なるため、潜在的に重要な要因となる可能性がある。
ここでは、ハイパーパラメータとデータ拡張戦略の選択がパフォーマンスに劇的な影響を与えうることを示す。
これらの無視された要因に光を当て、SSLのパワーを最大化するために、これらのコンポーネントを過度にパラメータ化し、ベイズ最適化で最適化し、SimSiam SSLアプローチのために複数のデータセットにまたがる改善を示す。
SSLにおけるデータ拡張の重要性を認識し,グループ間のサンプリングを最適化する,新たな自動データ拡張アルゴリズムであるGroupAugmentを導入する。
教師付き学習のために設計されたアルゴリズムとは対照的に、groupaugmentは、検討したすべてのデータセットにおいて一貫して高い線形評価精度を達成した。
全体として、SSLにおけるデータ拡張の重要性と、おそらく過小評価された役割を示している。
関連論文リスト
- A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - SPEED: Scalable Preprocessing of EEG Data for Self-Supervised Learning [2.705542761685457]
自己教師付き学習に最適化されたPythonベースのEEG前処理パイプラインを提案する。
この最適化は、自己教師付きトレーニングを安定化し、下流タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-08-15T10:15:01Z) - On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Boosting Transformer's Robustness and Efficacy in PPG Signal Artifact
Detection with Self-Supervised Learning [0.0]
本研究は、自己教師付き学習(SSL)を用いて、このデータから潜伏した特徴を抽出することにより、豊富なラベル付きデータの未利用に対処する。
実験の結果,SSLはTransformerモデルの表現学習能力を大幅に向上させることがわかった。
このアプローチは、注釈付きデータがしばしば制限されるPICU環境において、より広範なアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2024-01-02T04:00:48Z) - Self-Supervision for Tackling Unsupervised Anomaly Detection: Pitfalls
and Opportunities [50.231837687221685]
自己教師付き学習(SSL)は、機械学習とその多くの現実世界のアプリケーションに変化をもたらした。
非教師なし異常検出(AD)は、自己生成性擬似異常によりSSLにも乗じている。
論文 参考訳(メタデータ) (2023-08-28T07:55:01Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Evolutionary Augmentation Policy Optimization for Self-supervised
Learning [10.087678954934155]
自己教師付き学習は、手動でラベル付けされたデータを必要としないディープニューラルネットワーク(DNN)の事前トレーニングのための機械学習アルゴリズムである。
本稿では,自己教師付き学習アルゴリズムの性能向上に対する拡張演算子の貢献について検討する。
論文 参考訳(メタデータ) (2023-03-02T21:16:53Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。