論文の概要: Training Deep Architectures Without End-to-End Backpropagation: A Brief
Survey
- arxiv url: http://arxiv.org/abs/2101.03419v1
- Date: Sat, 9 Jan 2021 19:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 07:25:16.579804
- Title: Training Deep Architectures Without End-to-End Backpropagation: A Brief
Survey
- Title(参考訳): エンドツーエンドのバックプロパゲーションのないディープラーニングのトレーニング: 簡単な調査
- Authors: Shiyu Duan and Jose C. Principe
- Abstract要約: このチュートリアルでは、エンドツーエンドバックプロパゲーション(E2EBP)の代替トレーニングについて調査する。
モジュラートレーニングは、前方と後方の両方のパスなしで厳密にローカルトレーニングを指します。
これらの代替手段は、ImageNetのような挑戦的なデータセット上でのE2EBPのパフォーマンスにマッチまたは超えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This tutorial paper surveys training alternatives to end-to-end
backpropagation (E2EBP) -- the de facto standard for training deep
architectures. Modular training refers to strictly local training without both
the forward and the backward pass, i.e., dividing a deep architecture into
several nonoverlapping modules and training them separately without any
end-to-end operation. Between the fully global E2EBP and the strictly local
modular training, there are "weakly modular" hybrids performing training
without the backward pass only. These alternatives can match or surpass the
performance of E2EBP on challenging datasets such as ImageNet, and are gaining
increased attention primarily because they offer practical advantages over
E2EBP, which will be enumerated herein. In particular, they allow for greater
modularity and transparency in deep learning workflows, aligning deep learning
with the mainstream computer science engineering that heavily exploits
modularization for scalability. Modular training has also revealed novel
insights about learning and may have further implications on other important
research domains. Specifically, it induces natural and effective solutions to
some important practical problems such as data efficiency and transferability
estimation.
- Abstract(参考訳): このチュートリアルでは、ディープラーニングをトレーニングするためのデファクトスタンダードであるエンドツーエンドのバックプロパゲーション(E2EBP)に代わるトレーニング方法について調査する。
モジュールトレーニング(Modular training)とは、深層アーキテクチャを複数の非重複モジュールに分割し、エンド・ツー・エンド操作なしで個別にトレーニングすることである。
完全にグローバルなE2EBPと厳密なローカルなモジュラートレーニングの間には、後方パスのみなしでトレーニングを行う"弱いモジュラー"ハイブリッドが存在する。
これらの代替手段は、ImageNetのような挑戦的なデータセットでE2EBPのパフォーマンスに匹敵するか、上回る可能性がある。
特に、ディープラーニングワークフローにおけるモジュール化と透明性の向上を可能にし、ディープラーニングをスケーラビリティのためにモジュール化を大いに活用する主流のコンピュータサイエンスエンジニアリングと整合させる。
モジュールトレーニングはまた、学習に関する新しい洞察を明らかにし、他の重要な研究領域にさらに影響を及ぼす可能性がある。
具体的には、データ効率や転送可能性推定など、いくつかの重要な実用的な問題に対して、自然かつ効果的なソリューションを誘導する。
関連論文リスト
- SAPT: A Shared Attention Framework for Parameter-Efficient Continual
Learning of Large Language Models [74.48765681246947]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Jointly-Learned Exit and Inference for a Dynamic Neural Network :
JEI-DNN [22.905775236041645]
早期排他的動的ニューラルネットワーク(EDNN)は、中間層(即ち早期排他)からの予測の一部をモデルが行うことを可能にする。
EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。
本稿では,これら2つのモジュールを接続する新しいアーキテクチャを提案する。これにより分類データセットの性能が大幅に向上し,不確実性評価機能の向上が期待できる。
論文 参考訳(メタデータ) (2023-10-13T14:56:38Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Deep Model Assembling [31.88606253639418]
本稿では,大規模モデルをトレーニングするための分割・分散戦略について検討する。
大きなモデルを小さなモジュールに分割し、個別にトレーニングし、トレーニングされたモジュールを再組み立てしてターゲットモデルを取得する。
すべてのモジュールを暗黙的にリンクするグローバルな共有メタモデルを導入します。
これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。
論文 参考訳(メタデータ) (2022-12-08T08:04:06Z) - Training Deep Networks from Zero to Hero: avoiding pitfalls and going
beyond [59.94347858883343]
このチュートリアルでは、基本的なステップと、モデルを改善するためのより最近のオプションを取り上げている。
これは特に、課題のデータセットほど準備が不十分なデータセットで有用である。
論文 参考訳(メタデータ) (2021-09-06T21:31:42Z) - Revisiting Locally Supervised Learning: an Alternative to End-to-end
Training [36.43515074019875]
そこで我々は,情報伝達(InfoPro)損失を提案する。ローカルモジュールが可能な限り有用な情報を保存することを奨励する。
E2E トレーニングと比較して,InfoPro は 40% 未満のメモリフットプリントで競合性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2021-01-26T15:02:18Z) - A Deeper Look at Salient Object Detection: Bi-stream Network with a
Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。
提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T01:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。