論文の概要: Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training
- arxiv url: http://arxiv.org/abs/2011.14660v3
- Date: Sat, 20 Mar 2021 14:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:47:15.555834
- Title: Towards Better Accuracy-efficiency Trade-offs: Divide and Co-training
- Title(参考訳): より良い精度・効率トレードオフを目指して--分業と共同訓練
- Authors: Shuai Zhao, Liguang Zhou, Wenxiao Wang, Deng Cai, Tin Lun Lam,
Yangsheng Xu
- Abstract要約: ネットワーク数(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると主張している。
小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より優れたアンサンブル性能を実現することができる。
- 参考スコア(独自算出の注目度): 24.586453683904487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The width of a neural network matters since increasing the width will
necessarily increase the model capacity. However, the performance of a network
does not improve linearly with the width and soon gets saturated. In this case,
we argue that increasing the number of networks (ensemble) can achieve better
accuracy-efficiency trade-offs than purely increasing the width. To prove it,
one large network is divided into several small ones regarding its parameters
and regularization components. Each of these small networks has a fraction of
the original one's parameters. We then train these small networks together and
make them see various views of the same data to increase their diversity.
During this co-training process, networks can also learn from each other. As a
result, small networks can achieve better ensemble performance than the large
one with few or no extra parameters or FLOPs. Small networks can also achieve
faster inference speed than the large one by concurrent running on different
devices. We validate our argument with 8 different neural architectures on
common benchmarks through extensive experiments. The code is available at
\url{https://github.com/mzhaoshuai/Divide-and-Co-training}.
- Abstract(参考訳): ニューラルネットワークの幅は、幅を増やすことが必ずモデルの容量を増加させるため、重要となる。
しかし、ネットワークの性能は幅とともに線形に改善されず、すぐに飽和する。
この場合、ネットワーク(アンサンブル)の増加は、幅を純粋に増やすよりも、精度と効率のトレードオフを達成できると論じる。
それを証明するために、1つの大きなネットワークはそのパラメータと正規化コンポーネントに関していくつかの小さなネットワークに分割される。
これらの小さなネットワークはそれぞれ、元のパラメータのほんの一部しか持たない。
次に、これらの小さなネットワークを訓練し、その多様性を高めるために、同じデータのさまざまなビューを見るようにします。
このコトレーニングプロセスの間、ネットワークは互いに学習することもできます。
結果として、小さなネットワークは、パラメータやFLOPがほとんどあるいは全くない大きなネットワークよりも、より良いアンサンブル性能が得られる。
小さなネットワークは、異なるデバイス上で同時実行することで、大きなネットワークよりも高速な推論速度を実現することもできる。
8つの異なるニューラルアーキテクチャによる共通ベンチマークによる議論を,広範な実験によって検証した。
コードは \url{https://github.com/mzhaoshuai/divide-and-co-training} で入手できる。
関連論文リスト
- Network Fission Ensembles for Low-Cost Self-Ensembles [20.103367702014474]
NFE(Network Fission Ensembles)と呼ばれる低コストのアンサンブル学習と推論を提案する。
まず、トレーニングの負担を軽減するために、いくつかの重みを取り除きます。
次に、残りの重みを複数の集合に分けて、各集合を用いて複数の補助経路を作成し、複数の集合を構成する。
論文 参考訳(メタデータ) (2024-08-05T08:23:59Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Width is Less Important than Depth in ReLU Neural Networks [40.83290846983707]
我々は,$mathbbRd$の入力を持つ任意のターゲットネットワークを,幅$O(d)$ネットワークで近似できることを示す。
結果は、有界重み付きネットワークの構築や、最大で$d+2$の幅を持つネットワークの構築に拡張される。
論文 参考訳(メタデータ) (2022-02-08T13:07:22Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - BCNet: Searching for Network Width with Bilaterally Coupled Network [56.14248440683152]
この問題に対処するため、BCNet(Bilaterally Coupled Network)と呼ばれる新しいスーパーネットを導入する。
BCNetでは、各チャネルは高度に訓練され、同じ量のネットワーク幅を担っているため、ネットワーク幅をより正確に評価することができる。
提案手法は,他のベースライン手法と比較して,最先端あるいは競合的な性能を実現する。
論文 参考訳(メタデータ) (2021-05-21T18:54:03Z) - Bit-Mixer: Mixed-precision networks with runtime bit-width selection [72.32693989093558]
Bit-Mixerは、テスト時間中に任意のレイヤが入札幅を変更し、ネットワーク全体の精度の高い推論能力に影響を与えることなく、メタ量子ネットワークをトレーニングする最初の方法である。
本手法は, デバイス上での展開に望ましい柔軟性を示す複合精密ネットワークを, 精度を犠牲にすることなく実現できることを示した。
論文 参考訳(メタデータ) (2021-03-31T17:58:47Z) - Rescaling CNN through Learnable Repetition of Network Parameters [2.137666194897132]
CNNのパラメータの学習可能な反復に基づく新しい再スケーリング戦略を提案する。
小ベースネットワークが再スケールされると、より深いネットワークの最適化パラメータの6%以下で、より深いネットワークに匹敵するパフォーマンスを提供できることを示す。
論文 参考訳(メタデータ) (2021-01-14T15:03:25Z) - Multigrid-in-Channels Architectures for Wide Convolutional Neural
Networks [6.929025509877642]
本稿では,標準畳み込みニューラルネットワーク(CNN)のチャネル数に関して,パラメータ数の2次成長に対処するマルチグリッド手法を提案する。
教師付き画像分類の例では、この戦略を残差ネットワークに適用し、MobileNetV2は精度に悪影響を及ぼすことなくパラメータ数を著しく削減している。
論文 参考訳(メタデータ) (2020-06-11T20:28:36Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。