論文の概要: Adaptive Width Neural Networks
- arxiv url: http://arxiv.org/abs/2501.15889v1
- Date: Mon, 27 Jan 2025 09:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:43.851775
- Title: Adaptive Width Neural Networks
- Title(参考訳): 適応幅ニューラルネットワーク
- Authors: Federico Errica, Henrik Christiansen, Viktor Zaverkin, Mathias Niepert, Francesco Alesiani,
- Abstract要約: トレーニング中にニューラルネットワークの層の境界のない幅を学習するために,使い易い手法を導入する。
ニューロン間の重要な順序の柔らかい順序を付与することにより、訓練されたネットワークを事実上ゼロコストで切り離すことができる。
- 参考スコア(独自算出の注目度): 22.94363065387228
- License:
- Abstract: For almost 70 years, researchers have mostly relied on hyper-parameter tuning to pick the width of neural networks' layers out of many possible choices. This paper challenges the status quo by introducing an easy-to-use technique to learn an unbounded width of a neural network's layer during training. The technique does not rely on alternate optimization nor hand-crafted gradient heuristics; rather, it jointly optimizes the width and the parameters of each layer via simple backpropagation. We apply the technique to a broad range of data domains such as tables, images, texts, and graphs, showing how the width adapts to the task's difficulty. By imposing a soft ordering of importance among neurons, it is possible to truncate the trained network at virtually zero cost, achieving a smooth trade-off between performance and compute resources in a structured way. Alternatively, one can dynamically compress the network with no performance degradation. In light of recent foundation models trained on large datasets, believed to require billions of parameters and where hyper-parameter tuning is unfeasible due to huge training costs, our approach stands as a viable alternative for width learning.
- Abstract(参考訳): 約70年間、研究者は可能な限り多くの選択肢からニューラルネットワークの層幅を選択するために、主にハイパーパラメータチューニングに頼ってきた。
本稿では、トレーニング中にニューラルネットワークの層の境界のない幅を学習するために、使い勝手の良い手法を導入することで、現状に挑戦する。
この手法は、代替最適化や手作り勾配ヒューリスティックに頼らず、単純なバックプロパゲーションによって各層の幅とパラメータを共同で最適化する。
この手法を,表,画像,テキスト,グラフなどの幅広いデータ領域に適用し,タスクの難易度にどのように幅が適応するかを示す。
ニューロン間の重要な順序の柔らかい順序を付与することにより、トレーニングされたネットワークを事実上ゼロコストで切り離し、構造化された方法でパフォーマンスと計算リソース間のスムーズなトレードオフを実現することができる。
あるいは、性能劣化のないネットワークを動的に圧縮することができる。
数十億のパラメータを必要とすると信じられ、トレーニングコストが大きいためハイパーパラメータチューニングが不可能な、近年の大規模なデータセットでトレーニングされた基盤モデルを踏まえて、我々のアプローチは、幅学習の代替手段として有効である。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Fast-NTK: Parameter-Efficient Unlearning for Large-Scale Models [17.34908967455907]
マシン・アンラーニング'は、スクラッチから再トレーニングすることなく、不要なデータの選択的削除を提案する。
Fast-NTKはNTKベースの新しいアンラーニングアルゴリズムであり、計算複雑性を大幅に削減する。
論文 参考訳(メタデータ) (2023-12-22T18:55:45Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Low Rank Optimization for Efficient Deep Learning: Making A Balance
between Compact Architecture and Fast Training [36.85333789033387]
本稿では,効率的なディープラーニング技術のための低ランク最適化に焦点を当てる。
空間領域では、ディープニューラルネットワークは、ネットワークパラメータの低階近似によって圧縮される。
時間領域では、ネットワークパラメータをいくつかのサブスペースでトレーニングできるため、高速収束のための効率的なトレーニングが可能になる。
論文 参考訳(メタデータ) (2023-03-22T03:55:16Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Wide-band butterfly network: stable and efficient inversion via
multi-frequency neural networks [1.2891210250935143]
広帯域散乱データから逆散乱マップを近似するために,広帯域蝶ネットワーク(WideBNet)と呼ばれるエンドツーエンドのディープラーニングアーキテクチャを導入する。
このアーキテクチャでは、バタフライの分解のような計算調和解析や、クーリー・テューキーFFTアルゴリズムのような伝統的なマルチスケール手法のツールが組み込まれている。
論文 参考訳(メタデータ) (2020-11-24T21:48:43Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Differentiable Sparsification for Deep Neural Networks [0.0]
本稿では,ディープニューラルネットワークのための完全微分可能なスペーシフィケーション手法を提案する。
提案手法は,ネットワークのスパース化構造と重み付けの両方をエンドツーエンドに学習することができる。
私たちの知る限りでは、これが最初の完全に差別化可能なスパーシフィケーション手法である。
論文 参考訳(メタデータ) (2019-10-08T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。