Fugu-MT 論文翻訳(概要): Width Transfer: On the (In)variance of Width Optimization

論文の概要: Width Transfer: On the (In)variance of Width Optimization

arxiv url: http://arxiv.org/abs/2104.13255v1
Date: Sat, 24 Apr 2021 19:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 03:00:50.048377
Title: Width Transfer: On the (In)variance of Width Optimization
Title（参考訳）: 幅移動:(in)幅最適化のばらつきについて
Authors: Ting-Wu Chin, Diana Marculescu, Ari S. Morcos
Abstract要約: width Transferは、最適化された幅(またはチャネル数)がサイズと深さにわたって規則的であるという仮定を利用する技術です。幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。
参考スコア（独自算出の注目度）: 24.805399769399614
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing the channel counts for different layers of a CNN has shown great promise in improving the efficiency of CNNs at test-time. However, these methods often introduce large computational overhead (e.g., an additional 2x FLOPs of standard training). Minimizing this overhead could therefore significantly speed up training. In this work, we propose width transfer, a technique that harnesses the assumptions that the optimized widths (or channel counts) are regular across sizes and depths. We show that width transfer works well across various width optimization algorithms and networks. Specifically, we can achieve up to 320x reduction in width optimization overhead without compromising the top-1 accuracy on ImageNet, making the additional cost of width optimization negligible relative to initial training. Our findings not only suggest an efficient way to conduct width optimization but also highlight that the widths that lead to better accuracy are invariant to various aspects of network architectures and training data.
Abstract（参考訳）: CNNの異なるレイヤのチャネルカウントを最適化することは、テスト時のCNNの効率を改善する上で非常に有望である。しかし、これらの手法はしばしば大きな計算オーバーヘッドをもたらす(例えば、標準訓練の2倍のFLOP)。このオーバーヘッドを最小限にすれば、トレーニングを大幅にスピードアップできる。本研究では,最適化された幅(あるいはチャネル数)がサイズや深さにわたって規則的であるという仮定を利用するワイド転送を提案する。幅転送は様々な幅最適化アルゴリズムとネットワークでうまく機能することを示す。具体的には、imagenetのtop-1精度を損なうことなく、最大320倍の幅最適化オーバーヘッドを削減でき、初期トレーニングに対して幅最適化の追加コストを無視できる。この結果から,ネットワークアーキテクチャやトレーニングデータの様々な側面に対して,より高精度な幅最適化を実現するための効率的な手法が提案されている。

関連論文リスト

Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。 L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文参考訳（メタデータ） (2025-03-14T14:48:12Z)
FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。近年の手法では、レンジビュー表現を利用して処理効率を向上している。範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文参考訳（メタデータ） (2025-02-13T12:39:26Z)
Adaptive Width Neural Networks [22.94363065387228]
トレーニング中にニューラルネットワークの層の境界のない幅を学習するために,使い易い手法を導入する。ニューロン間の重要な順序の柔らかい順序を付与することにより、訓練されたネットワークを事実上ゼロコストで切り離すことができる。
論文参考訳（メタデータ） (2025-01-27T09:25:56Z)
Feature-Learning Networks Are Consistent Across Widths At Realistic Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文参考訳（メタデータ） (2023-05-28T17:09:32Z)
Optimizing data-flow in Binary Neural Networks [0.0]
本稿では,BNNパイプラインにおけるデータフローと並列性を向上させる新しいトレーニング手法を提案する。また,ARM命令セットに対するバイナリ直接畳み込みを最適化した実装を提案する。実験の結果,少なくとも1つの完全精度モデルに対して精度を低下させることなく,推論速度を一貫した改善(最先端の2つのBNNフレームワークと比較して最大1.91と2.73倍)した。
論文参考訳（メタデータ） (2023-04-03T13:16:33Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Searching for Network Width with Bilaterally Coupled Network [75.43658047510334]
この問題に対処するため、BCNet(Bilaterally Coupled Network)と呼ばれる新しいスーパーネットを導入する。 BCNetでは、各チャネルは高度に訓練され、同じ量のネットワーク幅を担っているため、ネットワーク幅をより正確に評価することができる。本稿では,Channel-Bench-Macroというマクロ構造に対するオープンソースのワイド・ベンチマークを提案し,ワイド・サーチ・アルゴリズムの比較を行った。
論文参考訳（メタデータ） (2022-03-25T15:32:46Z)
Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。 GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文参考訳（メタデータ） (2021-07-31T08:36:30Z)
Efficient Multi-Objective Optimization for Deep Learning [2.0305676256390934]
マルチオブジェクト最適化(MOO)はディープラーニングの一般的な課題です。真に深いニューラルネットワークのためのスケーラブルなMOOソリューションはありません。
論文参考訳（メタデータ） (2021-03-24T17:59:42Z)
Enhancing sensor resolution improves CNN accuracy given the same number of parameters or FLOPS [53.10151901863263]
パラメータ数やFLOPSが同じで、高い入力解像度で高い精度が得られるように、ネットワークを変更することは、ほぼ常に可能であることを示す。 MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。
論文参考訳（メタデータ） (2021-03-09T06:47:01Z)
Locally Free Weight Sharing for Network Width Search [55.155969155967284]
ネットワーク幅の検索は、ハードウェア予算でディープニューラルネットワークをスリム化する効果的な方法である。そこで我々は,各幅をよりよく評価するために,局所自由度共有戦略(CafeNet)を提案する。提案手法により,NASネットワークの効率を0.41%向上させることができる。
論文参考訳（メタデータ） (2021-02-10T04:36:09Z)
Any-Width Networks [43.98007529334065]
本稿では,推定時の速度と精度を細かく制御できる調整可能な幅CNNアーキテクチャを提案する。我々の重要な革新は、幅の異なるバッチ統計に明示的に対処する低三角形の重み行列を使うことである。提案したAWNが既存の手法と良好に比較でき、推論中に最大粒度制御が可能であることを実証的に実証した。
論文参考訳（メタデータ） (2020-12-06T00:22:01Z)
Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training [24.586453683904487]
ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
論文参考訳（メタデータ） (2020-11-30T10:03:34Z)
Joslim: Joint Widths and Weights Optimization for Slimmable Neural Networks [37.09353669633368]
本稿では,スリム化可能なネットワークの幅構成と重みの両面での協調最適化を実現するための汎用フレームワークを提案する。本フレームワークは,従来およびNASをベースとしたスリム化可能なメソッドを特殊なケースとして仮定し,既存のメソッドよりも柔軟性を向上する。 ImageNetデータセットの1.7%と8%の改善は、FLOPとメモリフットプリントを考慮してMobileNetV2で達成できる。
論文参考訳（メタデータ） (2020-07-23T02:05:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。