論文の概要: Fast and Accurate Model Scaling
- arxiv url: http://arxiv.org/abs/2103.06877v1
- Date: Thu, 11 Mar 2021 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:54:02.590377
- Title: Fast and Accurate Model Scaling
- Title(参考訳): 高速かつ正確なモデルスケーリング
- Authors: Piotr Doll\'ar and Mannat Singh and Ross Girshick
- Abstract要約: スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。
様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。
現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we analyze strategies for convolutional neural network scaling;
that is, the process of scaling a base convolutional network to endow it with
greater computational complexity and consequently representational power.
Example scaling strategies may include increasing model width, depth,
resolution, etc. While various scaling strategies exist, their tradeoffs are
not fully understood. Existing analysis typically focuses on the interplay of
accuracy and flops (floating point operations). Yet, as we demonstrate, various
scaling strategies affect model parameters, activations, and consequently
actual runtime quite differently. In our experiments we show the surprising
result that numerous scaling strategies yield networks with similar accuracy
but with widely varying properties. This leads us to propose a simple fast
compound scaling strategy that encourages primarily scaling model width, while
scaling depth and resolution to a lesser extent. Unlike currently popular
scaling strategies, which result in about $O(s)$ increase in model activation
w.r.t. scaling flops by a factor of $s$, the proposed fast compound scaling
results in close to $O(\sqrt{s})$ increase in activations, while achieving
excellent accuracy. This leads to comparable speedups on modern memory-limited
hardware (e.g., GPU, TPU). More generally, we hope this work provides a
framework for analyzing and selecting scaling strategies under various
computational constraints.
- Abstract(参考訳): 本研究では,畳み込みニューラルネットワークのスケーリング戦略を分析する。つまり,畳み込みネットワークをスケールして,計算の複雑さと表現力を高めるプロセスである。
スケーリング戦略の例としては、モデル幅、深さ、解像度などの増加がある。
さまざまなスケーリング戦略が存在するが、そのトレードオフは完全には理解されていない。
既存の分析は、通常、精度とフロップ(浮動小数点演算)の相互作用に焦点を当てます。
しかし、我々が示すように、さまざまなスケーリング戦略はモデルパラメータ、アクティベーション、結果として実際のランタイムにまったく異なる影響を与えます。
我々の実験では、多くのスケーリング戦略が類似の精度でネットワークを産み出すが、その特性は様々である。
これにより、主にモデル幅をスケーリングするだけでなく、深さと解像度を小さくするシンプルな高速複合スケーリング戦略を提案します。
現在普及しているスケーリング戦略とは異なり、モデルアクティベーションw.r.tの約$ O(s)$増加をもたらす。
フロップを$s$の因子でスケーリングすると、提案された高速化合物のスケーリングは活性化の増大に近づき、精度は優れたものとなる。
これにより、現代のメモリ制限ハードウェア(GPU、TPUなど)のスピードアップに匹敵する。
より一般的には、この研究が様々な計算制約下でのスケーリング戦略の分析と選択のためのフレームワークを提供することを期待している。
関連論文リスト
- The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation [48.52206677611072]
投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。
単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
論文 参考訳(メタデータ) (2024-11-06T09:23:50Z) - The Importance of Being Scalable: Improving the Speed and Accuracy of Neural Network Interatomic Potentials Across Chemical Domains [4.340917737559795]
ニューラルネットワーク原子間ポテンシャル(NNIP)のスケーリングに関する研究
NNIPは、ab initio量子力学計算の代理モデルとして機能する。
我々は、スケーリング用に設計されたNNIPアーキテクチャを開発する: 効率よくスケールされた意識的原子間ポテンシャル(EScAIP)
論文 参考訳(メタデータ) (2024-10-31T17:35:57Z) - Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural
Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。
我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。
本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文 参考訳(メタデータ) (2024-02-19T09:52:45Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文 参考訳(メタデータ) (2022-07-15T03:16:43Z) - Adaptive Perturbation for Adversarial Attack [50.77612889697216]
そこで本研究では,新たな逆例に対する勾配に基づく攻撃手法を提案する。
逆方向の摂動を発生させるために,スケーリング係数を用いた正確な勾配方向を用いる。
本手法は, 高い伝達性を示し, 最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-27T07:57:41Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文 参考訳(メタデータ) (2021-03-13T00:18:19Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。