論文の概要: Width Transfer: On the (In)variance of Width Optimization
- arxiv url: http://arxiv.org/abs/2104.13255v1
- Date: Sat, 24 Apr 2021 19:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 03:00:50.048377
- Title: Width Transfer: On the (In)variance of Width Optimization
- Title(参考訳): 幅移動:(in)幅最適化のばらつきについて
- Authors: Ting-Wu Chin, Diana Marculescu, Ari S. Morcos
- Abstract要約: width Transferは、最適化された幅(またはチャネル数)がサイズと深さにわたって規則的であるという仮定を利用する技術です。
幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。
- 参考スコア(独自算出の注目度): 24.805399769399614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing the channel counts for different layers of a CNN has shown great
promise in improving the efficiency of CNNs at test-time. However, these
methods often introduce large computational overhead (e.g., an additional 2x
FLOPs of standard training). Minimizing this overhead could therefore
significantly speed up training. In this work, we propose width transfer, a
technique that harnesses the assumptions that the optimized widths (or channel
counts) are regular across sizes and depths. We show that width transfer works
well across various width optimization algorithms and networks. Specifically,
we can achieve up to 320x reduction in width optimization overhead without
compromising the top-1 accuracy on ImageNet, making the additional cost of
width optimization negligible relative to initial training. Our findings not
only suggest an efficient way to conduct width optimization but also highlight
that the widths that lead to better accuracy are invariant to various aspects
of network architectures and training data.
- Abstract(参考訳): CNNの異なるレイヤのチャネルカウントを最適化することは、テスト時のCNNの効率を改善する上で非常に有望である。
しかし、これらの手法はしばしば大きな計算オーバーヘッドをもたらす(例えば、標準訓練の2倍のFLOP)。
このオーバーヘッドを最小限にすれば、トレーニングを大幅にスピードアップできる。
本研究では,最適化された幅(あるいはチャネル数)がサイズや深さにわたって規則的であるという仮定を利用するワイド転送を提案する。
幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。
具体的には、imagenetのtop-1精度を損なうことなく、最大320倍の幅最適化オーバーヘッドを削減でき、初期トレーニングに対して幅最適化の追加コストを無視できる。
この結果から,ネットワークアーキテクチャやトレーニングデータの様々な側面に対して,より高精度な幅最適化を実現するための効率的な手法が提案されている。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - Adaptive Width Neural Networks [22.94363065387228]
トレーニング中にニューラルネットワークの層の境界のない幅を学習するために,使い易い手法を導入する。
ニューロン間の重要な順序の柔らかい順序を付与することにより、訓練されたネットワークを事実上ゼロコストで切り離すことができる。
論文 参考訳(メタデータ) (2025-01-27T09:25:56Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Searching for Network Width with Bilaterally Coupled Network [75.43658047510334]
この問題に対処するため、BCNet(Bilaterally Coupled Network)と呼ばれる新しいスーパーネットを導入する。
BCNetでは、各チャネルは高度に訓練され、同じ量のネットワーク幅を担っているため、ネットワーク幅をより正確に評価することができる。
本稿では,Channel-Bench-Macroというマクロ構造に対するオープンソースのワイド・ベンチマークを提案し,ワイド・サーチ・アルゴリズムの比較を行った。
論文 参考訳(メタデータ) (2022-03-25T15:32:46Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Efficient Multi-Objective Optimization for Deep Learning [2.0305676256390934]
マルチオブジェクト最適化(MOO)はディープラーニングの一般的な課題です。
真に深いニューラルネットワークのためのスケーラブルなMOOソリューションはありません。
論文 参考訳(メタデータ) (2021-03-24T17:59:42Z) - Enhancing sensor resolution improves CNN accuracy given the same number
of parameters or FLOPS [53.10151901863263]
パラメータ数やFLOPSが同じで、高い入力解像度で高い精度が得られるように、ネットワークを変更することは、ほぼ常に可能であることを示す。
MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。
論文 参考訳(メタデータ) (2021-03-09T06:47:01Z) - Any-Width Networks [43.98007529334065]
本稿では,推定時の速度と精度を細かく制御できる調整可能な幅CNNアーキテクチャを提案する。
我々の重要な革新は、幅の異なるバッチ統計に明示的に対処する低三角形の重み行列を使うことである。
提案したAWNが既存の手法と良好に比較でき、推論中に最大粒度制御が可能であることを実証的に実証した。
論文 参考訳(メタデータ) (2020-12-06T00:22:01Z) - Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training [24.586453683904487]
ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。
小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
論文 参考訳(メタデータ) (2020-11-30T10:03:34Z) - Joslim: Joint Widths and Weights Optimization for Slimmable Neural
Networks [37.09353669633368]
本稿では,スリム化可能なネットワークの幅構成と重みの両面での協調最適化を実現するための汎用フレームワークを提案する。
本フレームワークは,従来およびNASをベースとしたスリム化可能なメソッドを特殊なケースとして仮定し,既存のメソッドよりも柔軟性を向上する。
ImageNetデータセットの1.7%と8%の改善は、FLOPとメモリフットプリントを考慮してMobileNetV2で達成できる。
論文 参考訳(メタデータ) (2020-07-23T02:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。