論文の概要: Effective Self-supervised Pre-training on Low-compute Networks without
Distillation
- arxiv url: http://arxiv.org/abs/2210.02808v2
- Date: Mon, 2 Oct 2023 20:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 11:12:16.803579
- Title: Effective Self-supervised Pre-training on Low-compute Networks without
Distillation
- Title(参考訳): 蒸留のない低スループットネットワークにおける効果的な自己教師付き事前学習
- Authors: Fuwen Tan, Fatemeh Saleh, Brais Martinez
- Abstract要約: 報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
- 参考スコア(独自算出の注目度): 6.530011859253459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the impressive progress of self-supervised learning (SSL), its
applicability to low-compute networks has received limited attention. Reported
performance has trailed behind standard supervised pre-training by a large
margin, barring self-supervised learning from making an impact on models that
are deployed on device. Most prior works attribute this poor performance to the
capacity bottleneck of the low-compute networks and opt to bypass the problem
through the use of knowledge distillation (KD). In this work, we revisit SSL
for efficient neural networks, taking a closer at what are the detrimental
factors causing the practical limitations, and whether they are intrinsic to
the self-supervised low-compute setting. We find that, contrary to accepted
knowledge, there is no intrinsic architectural bottleneck, we diagnose that the
performance bottleneck is related to the model complexity vs regularization
strength trade-off. In particular, we start by empirically observing that the
use of local views can have a dramatic impact on the effectiveness of the SSL
methods. This hints at view sampling being one of the performance bottlenecks
for SSL on low-capacity networks. We hypothesize that the view sampling
strategy for large neural networks, which requires matching views in very
diverse spatial scales and contexts, is too demanding for low-capacity
architectures. We systematize the design of the view sampling mechanism,
leading to a new training methodology that consistently improves the
performance across different SSL methods (e.g. MoCo-v2, SwAV, DINO), different
low-size networks (e.g. MobileNetV2, ResNet18, ResNet34, ViT-Ti), and different
tasks (linear probe, object detection, instance segmentation and
semi-supervised learning). Our best models establish a new state-of-the-art for
SSL methods on low-compute networks despite not using a KD loss term.
- Abstract(参考訳): 自己教師付き学習(SSL)の目覚ましい進歩にもかかわらず、低スループットネットワークへの適用性は制限されている。
報告されたパフォーマンスは、標準的な教師付き事前トレーニングに大きく遅れており、デバイスにデプロイされるモデルに影響を与えない自己教師型学習を禁止している。
ほとんどの先行研究は、この性能の低下を低計算ネットワークの容量ボトルネックとしており、知識蒸留(kd)によって問題を回避している。
本研究では、効率的なニューラルネットワークのためにSSLを再検討し、実用的制約の原因となる有害要因と、それらが自己監督型低コンパス設定に固有のものであるかどうかを詳しく検討する。
受け入れられた知識とは対照的に、固有のアーキテクチャ上のボトルネックはなく、パフォーマンスのボトルネックはモデルの複雑さと正規化の強さのトレードオフに関係していると診断する。
特に、ローカルビューの使用がSSLメソッドの有効性に劇的な影響を与えることを実証的に観察することから始める。
これは、低容量ネットワークにおけるSSLのパフォーマンスボトルネックのひとつとして、ビューサンプリングを示唆している。
私たちは、非常に多様な空間的スケールとコンテキストのビューをマッチングする必要がある大規模ニューラルネットワークのビューサンプリング戦略が、低容量アーキテクチャに要求されすぎていると仮定する。
我々はビューサンプリング機構の設計を体系化し、異なるSSLメソッド(MoCo-v2、SwaV、DINOなど)、異なる低サイズのネットワーク(MobileNetV2、ResNet18、ResNet34、ViT-Tiなど)、異なるタスク(線形プローブ、オブジェクト検出、インスタンスセグメンテーション、半教師付き学習など)におけるパフォーマンスを継続的に改善する新しいトレーニング手法を導いた。
我々の最善のモデルは、kd損失項を使わずに、低コンピュートネットワーク上でsslメソッドの新しい最先端を確立します。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Plasticity-Optimized Complementary Networks for Unsupervised Continual
Learning [22.067640536948545]
継続的教師なし表現学習(CURL)の研究は、自己教師付き学習(SSL)技術の改善から大いに恩恵を受けている。
SSLを使った既存のCURLメソッドは、ラベルなしで高品質な表現を学習できるが、マルチタスクのデータストリームで学ぶ場合、顕著なパフォーマンス低下がある。
本稿では,従来の知識の維持の義務を解き放ち,新たなタスクに最適に集中できる専門家ネットワークを育成することを提案する。
論文 参考訳(メタデータ) (2023-09-12T09:31:34Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - lpSpikeCon: Enabling Low-Precision Spiking Neural Network Processing for
Efficient Unsupervised Continual Learning on Autonomous Agents [14.916996986290902]
効率的な教師なし連続学習のための低精度SNN処理を可能にする新しい手法であるlpSpikeConを提案する。
我々のlpSpikeConは、教師なし連続学習によるオンライントレーニングを行うために、SNNモデルの重量記憶を8倍(すなわち、4ビットの重みを司法的に採用することで)削減することができる。
論文 参考訳(メタデータ) (2022-05-24T18:08:16Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。