論文の概要: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- arxiv url: http://arxiv.org/abs/2301.09164v1
- Date: Sun, 22 Jan 2023 17:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:47:20.011528
- Title: Unifying Synergies between Self-supervised Learning and Dynamic
Computation
- Title(参考訳): 自己教師付き学習と動的計算の相乗効果
- Authors: Tarun Krishna, Ayush K Rai, Alexandru Drimbarean, Alan F Smeaton,
Kevin McGuinness, Noel E O'Connor
- Abstract要約: 自己教師付き学習(SSL)アプローチは、コンピュータビジョンベンチマークで教師付き学習のパフォーマンスをエミュレートすることで、大きな進歩を遂げている。
これは、かなり大きなモデルサイズと計算コストのかかるトレーニング戦略のコストが伴うため、リソース制約のある産業環境では実用的ではない。
本稿では,SSL と DC のパラダイム間の相互作用の新たな視点を提案し,より密集した(疎軽量な)サブネットワークをスクラッチから学習する。
- 参考スコア(独自算出の注目度): 69.07249091840494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) approaches have made major strides forward by
emulating the performance of their supervised counterparts on several computer
vision benchmarks. This, however, comes at a cost of substantially larger model
sizes, and computationally expensive training strategies, which eventually lead
to larger inference times making it impractical for resource constrained
industrial settings. Techniques like knowledge distillation (KD), dynamic
computation (DC), and pruning are often used to obtain a lightweight
sub-network, which usually involves multiple epochs of fine-tuning of a large
pre-trained model, making it more computationally challenging.
In this work we propose a novel perspective on the interplay between SSL and
DC paradigms that can be leveraged to simultaneously learn a dense and gated
(sparse/lightweight) sub-network from scratch offering a good
accuracy-efficiency trade-off, and therefore yielding a generic and
multi-purpose architecture for application specific industrial settings. Our
study overall conveys a constructive message: exhaustive experiments on several
image classification benchmarks: CIFAR-10, STL-10, CIFAR-100, and ImageNet-100,
demonstrates that the proposed training strategy provides a dense and
corresponding sparse sub-network that achieves comparable (on-par) performance
compared with the vanilla self-supervised setting, but at a significant
reduction in computation in terms of FLOPs under a range of target budgets.
- Abstract(参考訳): 自己教師付き学習(SSL)アプローチは、いくつかのコンピュータビジョンベンチマークで教師付き学習のパフォーマンスをエミュレートすることで、大きな進歩を遂げている。
しかし、これは、かなり大きなモデルサイズと計算コストのかかるトレーニング戦略のコストが伴うため、最終的には推論時間が大きくなり、資源制約のある産業環境では実用的ではない。
知識蒸留(kd)、動的計算(dc)、プルーニング(pruning)のような技術は、しばしば軽量なサブネットワークを得るのに使われ、これは通常、大きな事前訓練されたモデルの微調整の複数のエポックを伴い、計算がより困難になる。
本研究では,SSL と DC のパラダイム間の相互作用を新たな視点で検討し,高密度かつ低軽量なサブネットワークをスクラッチから学習し,高い精度・効率のトレードオフを提供することにより,アプリケーション固有の産業環境のための汎用的・多目的アーキテクチャを実現する。
CIFAR-10, STL-10, CIFAR-100, ImageNet-100 などの画像分類ベンチマークの徹底的な実験により,提案したトレーニング戦略が,ベニラ自己監督設定と同等の性能(オン・パー)を達成し, FLOPの計算を目標予算の範囲で大幅に削減できることが実証された。
関連論文リスト
- Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks [7.439160287320074]
Federated split learning (FedSL)は、モデル分割によるエッジデバイスとサーバ間の協調トレーニングを実装している。
本稿では,リソース制約のあるエッジデバイスのトレーニング負担を軽減する軽量なFedSL方式を提案する。
提案手法の収束性能を定量化するために理論的解析を行う。
論文 参考訳(メタデータ) (2024-12-09T11:43:03Z) - Quantized and Interpretable Learning Scheme for Deep Neural Networks in Classification Task [0.0]
本稿では,サリエンシ誘導学習と量子化技術を組み合わせて,解釈可能かつ資源効率のよいモデルを構築するアプローチを提案する。
以上の結果から,Saliency-Guided Training と PACT-based Quantization の併用は,分類性能を維持するだけでなく,より効率的かつ解釈可能なモデルを生成することが示唆された。
論文 参考訳(メタデータ) (2024-12-05T06:34:06Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - When Computing Power Network Meets Distributed Machine Learning: An
Efficient Federated Split Learning Framework [6.871107511111629]
CPN-FedSLはComputer Power Network (CPN)上のFederated Split Learning (FedSL)フレームワークである。
私たちは、基本的な設定と学習特性(例えば、レイテンシ、フロー、収束)をキャプチャする専用のモデルを構築します。
論文 参考訳(メタデータ) (2023-05-22T12:36:52Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Effective Self-supervised Pre-training on Low-compute Networks without
Distillation [6.530011859253459]
報告された自己教師型学習のパフォーマンスは、標準的な教師付き事前学習よりも大きなマージンで遅れている。
以前の作業のほとんどは、低スループットネットワークのキャパシティボトルネックによるパフォーマンスの低下を理由としている。
我々は、現実的な制約の原因となる有害要因と、それらが自己監督型低コンプット設定に固有のものであるかどうかについて、より詳しく検討する。
論文 参考訳(メタデータ) (2022-10-06T10:38:07Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。