論文の概要: Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training
- arxiv url: http://arxiv.org/abs/2101.10832v1
- Date: Tue, 26 Jan 2021 15:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 20:05:52.245744
- Title: Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training
- Title(参考訳): ローカル教師付き学習の再訪:エンドツーエンドのトレーニングに代わるもの
- Authors: Yulin Wang, Zanlin Ni, Shiji Song, Le Yang, Gao Huang
- Abstract要約: そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。
E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 36.43515074019875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the need to store the intermediate activations for back-propagation,
end-to-end (E2E) training of deep networks usually suffers from high GPUs
memory footprint. This paper aims to address this problem by revisiting the
locally supervised learning, where a network is split into gradient-isolated
modules and trained with local supervision. We experimentally show that simply
training local modules with E2E loss tends to collapse task-relevant
information at early layers, and hence hurts the performance of the full model.
To avoid this issue, we propose an information propagation (InfoPro) loss,
which encourages local modules to preserve as much useful information as
possible, while progressively discard task-irrelevant information. As InfoPro
loss is difficult to compute in its original form, we derive a feasible upper
bound as a surrogate optimization objective, yielding a simple but effective
algorithm. In fact, we show that the proposed method boils down to minimizing
the combination of a reconstruction loss and a normal cross-entropy/contrastive
term. Extensive empirical results on five datasets (i.e., CIFAR, SVHN, STL-10,
ImageNet and Cityscapes) validate that InfoPro is capable of achieving
competitive performance with less than 40% memory footprint compared to E2E
training, while allowing using training data with higher-resolution or larger
batch sizes under the same GPU memory constraint. Our method also enables
training local modules asynchronously for potential training acceleration. Code
is available at: https://github.com/blackfeather-wang/InfoPro-Pytorch.
- Abstract(参考訳): バックプロパゲーションの中間のアクティベーションを保存する必要があるため、ディープネットワークのエンドツーエンド(E2E)トレーニングは通常、高いGPUメモリフットプリントに悩まされる。
本稿では,ネットワークを勾配分離モジュールに分割し,局所的監視によって学習する局所教師付き学習を再考することで,この問題に対処することを目的とする。
実験により,e2e損失を伴うローカルモジュールのトレーニングが早期のレイヤでタスク関連情報を崩壊させる傾向にあり,モデル全体の性能を損なうことを示した。
この問題を回避するため,我々は,タスク関連情報を段階的に破棄しつつ,ローカルモジュールが可能な限り有用な情報を保存することを奨励する情報伝達損失(InfoPro)を提案する。
InfoProの損失は元の形式で計算することは困難であるため、我々はサーロゲート最適化の目的として実現可能な上限を導き出し、シンプルで効果的なアルゴリズムを生み出します。
実際,提案手法は,再構成損失と正規のクロスエントロピー/コントラスト項の組み合わせを最小化するために沸騰する。
5つのデータセット(すなわちcifar、svhn、stl-10、imagenet、cityscapes)の広範な実証結果によると、infoproはe2eトレーニングに比べて40%以下のメモリフットプリントで、同じgpuメモリ制約下で、より高解像度またはより大きなバッチサイズでトレーニングデータを使用できる。
また、ローカルモジュールを非同期にトレーニングすることで、トレーニングの加速が可能となる。
コードはhttps://github.com/blackfeather-wang/InfoPro-Pytorchで入手できる。
関連論文リスト
- Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Go beyond End-to-End Training: Boosting Greedy Local Learning with
Context Supply [0.12187048691454236]
ゆるやかなローカル学習は、ネットワークを勾配に分離したモジュールに分割し、局所的な予備的損失に基づいて監督的に訓練する。
勾配分離モジュールのセグメンテーション数が増加するにつれて、局所学習方式の性能は大幅に低下する。
本稿では,情報損失を補うために,分離モジュール間のコンテキスト供給を組み込んだContSupスキームを提案する。
論文 参考訳(メタデータ) (2023-12-12T10:25:31Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - BackLink: Supervised Local Training with Backward Links [2.104758015212034]
この研究は、モジュール間の後方依存性を導入し、モジュール間でエラーを流すことが可能な、新しいローカルトレーニングアルゴリズムであるBackLinkを提案する。
提案手法は,ResNet110のメモリコストを79%削減し,ResNet110のシミュレーションランタイムを52%削減する。
論文 参考訳(メタデータ) (2022-05-14T21:49:47Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Data optimization for large batch distributed training of deep neural
networks [0.19336815376402716]
ディープニューラルネットワークの分散トレーニングの現在のプラクティスは、大規模運用における通信ボトルネックの課題に直面している。
本研究では,局所的ミニマの少ない損失環境を暗黙的に平滑化するために,機械学習を用いたデータ最適化手法を提案する。
当社のアプローチでは,機能学習において重要でないデータポイントをフィルタリングすることで,より大きなバッチサイズでのモデルのトレーニングを高速化し,精度の向上を実現しています。
論文 参考訳(メタデータ) (2020-12-16T21:22:02Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。