論文の概要: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- arxiv url: http://arxiv.org/abs/2301.09164v3
- Date: Sat, 9 Sep 2023 20:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:31:15.041844
- Title: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- Title(参考訳): 自己教師付き学習と動的計算の相乗効果
- Authors: Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Eric Arazo, Paul
Albert, Alan F Smeaton, Kevin McGuinness, Noel E O'Connor
- Abstract要約: SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
- 参考スコア(独自算出の注目度): 53.66628188936682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computationally expensive training strategies make self-supervised learning
(SSL) impractical for resource constrained industrial settings. Techniques like
knowledge distillation (KD), dynamic computation (DC), and pruning are often
used to obtain a lightweightmodel, which usually involves multiple epochs of
fine-tuning (or distilling steps) of a large pre-trained model, making it more
computationally challenging. In this work we present a novel perspective on the
interplay between SSL and DC paradigms. In particular, we show that it is
feasible to simultaneously learn a dense and gated sub-network from scratch in
a SSL setting without any additional fine-tuning or pruning steps. The
co-evolution during pre-training of both dense and gated encoder offers a good
accuracy-efficiency trade-off and therefore yields a generic and multi-purpose
architecture for application specific industrial settings. Extensive
experiments on several image classification benchmarks including CIFAR-10/100,
STL-10 and ImageNet-100, demonstrate that the proposed training strategy
provides a dense and corresponding gated sub-network that achieves on-par
performance compared with the vanilla self-supervised setting, but at a
significant reduction in computation in terms of FLOPs, under a range of target
budgets (td ).
- Abstract(参考訳): 計算コストの高いトレーニング戦略は、リソース制約のある産業環境において自己教師付き学習(SSL)を非現実化する。
知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)といった技術は、通常、大きな事前訓練されたモデルの微調整(または蒸留ステップ)の複数のエポックを含む軽量モデルを得るためにしばしば用いられる。
本稿ではSSLとDCのパラダイム間の相互作用に関する新しい視点を示す。
特に,細かな調整や刈り取りのステップを加えることなく,ssl設定で,密集したゲート付きサブネットワークをスクラッチから同時に学習することが可能であることを示す。
高密度エンコーダとゲートエンコーダの事前トレーニング中の共進化は、精度と効率のよいトレードオフを提供するため、アプリケーション固有の産業環境では汎用的で多目的なアーキテクチャとなる。
CIFAR-10/100, STL-10, ImageNet-100などの画像分類ベンチマークの大規模な実験により、提案したトレーニング戦略は、ベニラの自己監督設定に比べて高密度かつ対応するゲートサブネットワークを提供するが、FLOPの計算量は、目標予算(td)の範囲で大幅に減少することを示した。
関連論文リスト
- Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。