論文の概要: Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally
- arxiv url: http://arxiv.org/abs/2405.19816v2
- Date: Thu, 12 Dec 2024 10:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:26.333295
- Title: Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally
- Title(参考訳): 成長するTiny Network: 表現力のボツネックの発見と最適化
- Authors: Manon Verbockhaven, Sylvain Chevallier, Guillaume Charpiat, Théo Rudkiewicz,
- Abstract要約: 機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現性ボトルネックによる望ましいアーキテクチャ変更に関する情報は,バックプロパゲーションから抽出可能であることを示す。
- 参考スコア(独自算出の注目度): 2.421273972191206
- License:
- Abstract: Machine learning tasks are generally formulated as optimization problems, where one searches for an optimal function within a certain functional space. In practice, parameterized functional spaces are considered, in order to be able to perform gradient descent. Typically, a neural network architecture is chosen and fixed, and its parameters (connection weights) are optimized, yielding an architecture-dependent result. This way of proceeding however forces the evolution of the function during training to lie within the realm of what is expressible with the chosen architecture, and prevents any optimization across architectures. Costly architectural hyper-parameter optimization is often performed to compensate for this. Instead, we propose to adapt the architecture on the fly during training. We show that the information about desirable architectural changes, due to expressivity bottlenecks when attempting to follow the functional gradient, can be extracted from backpropagation. To do this, we propose a mathematical definition of expressivity bottlenecks, which enables us to detect, quantify and solve them while training, by adding suitable neurons. Thus, while the standard approach requires large networks, in terms of number of neurons per layer, for expressivity and optimization reasons, we provide tools and properties to develop an architecture starting with a very small number of neurons. As a proof of concept, we show results~on the CIFAR dataset, matching large neural network accuracy, with competitive training time, while removing the need for standard architectural hyper-parameter search.
- Abstract(参考訳): 機械学習タスクは一般に最適化問題として定式化され、ある機能空間内で最適な関数を探索する。
実際には、勾配降下を行うためにパラメータ化された汎函数空間を考える。
通常、ニューラルネットワークアーキテクチャが選択され、固定され、そのパラメータ(接続重み付け)が最適化され、アーキテクチャに依存した結果が得られる。
しかしながら、この方法では、トレーニング中の機能の進化を、選択されたアーキテクチャで表現可能な領域内に配置させ、アーキテクチャ間の最適化を妨げます。
コストのかかるアーキテクチャのハイパーパラメータ最適化は、これを補うためにしばしば行われる。
代わりに、トレーニング中にアーキテクチャをその場で適応させることを提案します。
機能的勾配に従おうとする際の表現性ボトルネックによる望ましいアーキテクチャ変化に関する情報は、バックプロパゲーションから抽出可能であることを示す。
そこで我々は, 適応性ボトルネックの数学的定義を提案し, 適切なニューロンを付加することにより, 学習中にそのボトルネックを検出し, 定量化し, 解決することができる。
したがって、表現性や最適化の理由から、1層あたりのニューロン数の観点からは大きなネットワークを必要とするが、非常に少数のニューロンから始まるアーキテクチャを開発するためのツールや特性を提供する。
概念実証として、CIFARデータセットにおいて、ニューラルネットワークの精度と競合するトレーニング時間とを一致させながら、標準的なアーキテクチャハイパーパラメータサーチの必要性を排除した結果を示す。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。
動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T16:29:18Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - Convolution Neural Network Hyperparameter Optimization Using Simplified
Swarm Optimization [2.322689362836168]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンで広く使われている。
パフォーマンスが向上したネットワークアーキテクチャを見つけるのは容易ではない。
論文 参考訳(メタデータ) (2021-03-06T00:23:27Z) - Differentiable Neural Architecture Learning for Efficient Neural Network
Design [31.23038136038325]
スケールド・シグモイド関数に基づく新しいemphアーキテクチャのパラメータ化を提案する。
そこで本論文では,候補ニューラルネットワークを評価することなく,ニューラルネットワークを最適化するための汎用的エファイブルニューラルネットワーク学習(DNAL)手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T02:03:08Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Disentangling Neural Architectures and Weights: A Case Study in
Supervised Classification [8.976788958300766]
本研究は、神経構造とそのエッジウェイトの役割を解消する問題について考察する。
十分に訓練されたアーキテクチャでは、重み付けのリンク固有の微調整は不要である。
我々は、ハードアーキテクチャ探索問題を実現可能な最適化問題に変換する、新しい計算効率のよい手法を用いる。
論文 参考訳(メタデータ) (2020-09-11T11:22:22Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。