論文の概要: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- arxiv url: http://arxiv.org/abs/2301.09164v1
- Date: Sun, 22 Jan 2023 17:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:47:20.011528
- Title: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- Title(参考訳): 自己教師付き学習と動的計算の相乗効果
- Authors: Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Alan F Smeaton,
Kevin McGuinness, Noel E O'Connor
- Abstract要約: 自己教師付き学習(SSL)アプローチは、コンピュータビジョンベンチマークで教師付き学習のパフォーマンスをエミュレートすることで、大きな進歩を遂げている。
これは、かなり大きなモデルサイズと計算コストのかかるトレーニング戦略のコストが伴うため、リソース制約のある産業環境では実用的ではない。
本稿では,SSL と DC のパラダイム間の相互作用の新たな視点を提案し,より密集した(疎軽量な)サブネットワークをスクラッチから学習する。
- 参考スコア(独自算出の注目度): 69.07249091840494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) approaches have made major strides forward by
emulating the performance of their supervised counterparts on several computer
vision benchmarks. This, however, comes at a cost of substantially larger model
sizes, and computationally expensive training strategies, which eventually lead
to larger inference times making it impractical for resource constrained
industrial settings. Techniques like knowledge distillation (KD), dynamic
computation (DC), and pruning are often used to obtain a lightweight
sub-network, which usually involves multiple epochs of fine-tuning of a large
pre-trained model, making it more computationally challenging.
In this work we propose a novel perspective on the interplay between SSL and
DC paradigms that can be leveraged to simultaneously learn a dense and gated
(sparse/lightweight) sub-network from scratch offering a good
accuracy-efficiency trade-off, and therefore yielding a generic and
multi-purpose architecture for application specific industrial settings. Our
study overall conveys a constructive message: exhaustive experiments on several
image classification benchmarks: CIFAR-10, STL-10, CIFAR-100, and ImageNet-100,
demonstrates that the proposed training strategy provides a dense and
corresponding sparse sub-network that achieves comparable (on-par) performance
compared with the vanilla self-supervised setting, but at a significant
reduction in computation in terms of FLOPs under a range of target budgets.
- Abstract(参考訳): 自己教師付き学習(SSL)アプローチは、いくつかのコンピュータビジョンベンチマークで教師付き学習のパフォーマンスをエミュレートすることで、大きな進歩を遂げている。
しかし、これは、かなり大きなモデルサイズと計算コストのかかるトレーニング戦略のコストが伴うため、最終的には推論時間が大きくなり、資源制約のある産業環境では実用的ではない。
知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)のような技術は、しばしば軽量なサブネットワークを得るのに使われ、これは通常、大きな事前訓練されたモデルの微調整の複数のエポックを伴い、計算がより困難になる。
本研究では,SSL と DC のパラダイム間の相互作用を新たな視点で検討し,高密度かつ低軽量なサブネットワークをスクラッチから学習し,高い精度・効率のトレードオフを提供することにより,アプリケーション固有の産業環境のための汎用的・多目的アーキテクチャを実現する。
CIFAR-10, STL-10, CIFAR-100, ImageNet-100 などの画像分類ベンチマークの徹底的な実験により,提案したトレーニング戦略が,ベニラ自己監督設定と同等の性能(オン・パー)を達成し, FLOPの計算を目標予算の範囲で大幅に削減できることが実証された。
関連論文リスト
- Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Improving the Accuracy of Early Exits in Multi-Exit Architectures via
Curriculum Learning [88.17413955380262]
マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。
カリキュラム学習を活用したマルチエクジットカリキュラム学習という新しい手法を紹介します。
本手法は, 標準訓練手法と比較して, 早期終了の精度を一貫して向上させる。
論文 参考訳(メタデータ) (2021-04-21T11:12:35Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。