論文の概要: Fast and Accurate Model Scaling
- arxiv url: http://arxiv.org/abs/2103.06877v1
- Date: Thu, 11 Mar 2021 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:54:02.590377
- Title: Fast and Accurate Model Scaling
- Title(参考訳): 高速かつ正確なモデルスケーリング
- Authors: Piotr Doll\'ar and Mannat Singh and Ross Girshick
- Abstract要約: スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。
様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。
現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we analyze strategies for convolutional neural network scaling;
that is, the process of scaling a base convolutional network to endow it with
greater computational complexity and consequently representational power.
Example scaling strategies may include increasing model width, depth,
resolution, etc. While various scaling strategies exist, their tradeoffs are
not fully understood. Existing analysis typically focuses on the interplay of
accuracy and flops (floating point operations). Yet, as we demonstrate, various
scaling strategies affect model parameters, activations, and consequently
actual runtime quite differently. In our experiments we show the surprising
result that numerous scaling strategies yield networks with similar accuracy
but with widely varying properties. This leads us to propose a simple fast
compound scaling strategy that encourages primarily scaling model width, while
scaling depth and resolution to a lesser extent. Unlike currently popular
scaling strategies, which result in about $O(s)$ increase in model activation
w.r.t. scaling flops by a factor of $s$, the proposed fast compound scaling
results in close to $O(\sqrt{s})$ increase in activations, while achieving
excellent accuracy. This leads to comparable speedups on modern memory-limited
hardware (e.g., GPU, TPU). More generally, we hope this work provides a
framework for analyzing and selecting scaling strategies under various
computational constraints.
- Abstract(参考訳): 本研究では,畳み込みニューラルネットワークのスケーリング戦略を分析する。つまり,畳み込みネットワークをスケールして,計算の複雑さと表現力を高めるプロセスである。
スケーリング戦略の例としては、モデル幅、深さ、解像度などの増加がある。
さまざまなスケーリング戦略が存在するが、そのトレードオフは完全には理解されていない。
既存の分析は、通常、精度とフロップ(浮動小数点演算)の相互作用に焦点を当てます。
しかし、我々が示すように、さまざまなスケーリング戦略はモデルパラメータ、アクティベーション、結果として実際のランタイムにまったく異なる影響を与えます。
我々の実験では、多くのスケーリング戦略が類似の精度でネットワークを産み出すが、その特性は様々である。
これにより、主にモデル幅をスケーリングするだけでなく、深さと解像度を小さくするシンプルな高速複合スケーリング戦略を提案します。
現在普及しているスケーリング戦略とは異なり、モデルアクティベーションw.r.tの約$ O(s)$増加をもたらす。
フロップを$s$の因子でスケーリングすると、提案された高速化合物のスケーリングは活性化の増大に近づき、精度は優れたものとなる。
これにより、現代のメモリ制限ハードウェア(GPU、TPUなど)のスピードアップに匹敵する。
より一般的には、この研究が様々な計算制約下でのスケーリング戦略の分析と選択のためのフレームワークを提供することを期待している。
関連論文リスト
- Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural
Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。
我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。
本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文 参考訳(メタデータ) (2024-02-19T09:52:45Z) - A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文 参考訳(メタデータ) (2022-07-15T03:16:43Z) - Scaling ResNets in the Large-depth Regime [8.889304968879163]
Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。
これらのアーキテクチャの顕著なパフォーマンスは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存しています。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文 参考訳(メタデータ) (2022-06-14T15:49:10Z) - Adaptive Perturbation for Adversarial Attack [50.77612889697216]
そこで本研究では,新たな逆例に対する勾配に基づく攻撃手法を提案する。
逆方向の摂動を発生させるために,スケーリング係数を用いた正確な勾配方向を用いる。
本手法は, 高い伝達性を示し, 最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-27T07:57:41Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文 参考訳(メタデータ) (2021-03-13T00:18:19Z) - Explaining Neural Scaling Laws [12.382036568738242]
よく訓練されたニューラルネットワークのテスト損失は、しばしば正確なパワーロースケーリング関係に従う。
これらのスケーリング法則を説明・連結する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と解像度制限のスケーリング挙動を特定します。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。