論文の概要: Fast and Accurate Model Scaling
- arxiv url: http://arxiv.org/abs/2103.06877v1
- Date: Thu, 11 Mar 2021 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:54:02.590377
- Title: Fast and Accurate Model Scaling
- Title(参考訳): 高速かつ正確なモデルスケーリング
- Authors: Piotr Doll\'ar and Mannat Singh and Ross Girshick
- Abstract要約: スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。
様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。
現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we analyze strategies for convolutional neural network scaling;
that is, the process of scaling a base convolutional network to endow it with
greater computational complexity and consequently representational power.
Example scaling strategies may include increasing model width, depth,
resolution, etc. While various scaling strategies exist, their tradeoffs are
not fully understood. Existing analysis typically focuses on the interplay of
accuracy and flops (floating point operations). Yet, as we demonstrate, various
scaling strategies affect model parameters, activations, and consequently
actual runtime quite differently. In our experiments we show the surprising
result that numerous scaling strategies yield networks with similar accuracy
but with widely varying properties. This leads us to propose a simple fast
compound scaling strategy that encourages primarily scaling model width, while
scaling depth and resolution to a lesser extent. Unlike currently popular
scaling strategies, which result in about $O(s)$ increase in model activation
w.r.t. scaling flops by a factor of $s$, the proposed fast compound scaling
results in close to $O(\sqrt{s})$ increase in activations, while achieving
excellent accuracy. This leads to comparable speedups on modern memory-limited
hardware (e.g., GPU, TPU). More generally, we hope this work provides a
framework for analyzing and selecting scaling strategies under various
computational constraints.
- Abstract(参考訳): 本研究では,畳み込みニューラルネットワークのスケーリング戦略を分析する。つまり,畳み込みネットワークをスケールして,計算の複雑さと表現力を高めるプロセスである。
スケーリング戦略の例としては、モデル幅、深さ、解像度などの増加がある。
さまざまなスケーリング戦略が存在するが、そのトレードオフは完全には理解されていない。
既存の分析は、通常、精度とフロップ(浮動小数点演算)の相互作用に焦点を当てます。
しかし、我々が示すように、さまざまなスケーリング戦略はモデルパラメータ、アクティベーション、結果として実際のランタイムにまったく異なる影響を与えます。
我々の実験では、多くのスケーリング戦略が類似の精度でネットワークを産み出すが、その特性は様々である。
これにより、主にモデル幅をスケーリングするだけでなく、深さと解像度を小さくするシンプルな高速複合スケーリング戦略を提案します。
現在普及しているスケーリング戦略とは異なり、モデルアクティベーションw.r.tの約$ O(s)$増加をもたらす。
フロップを$s$の因子でスケーリングすると、提案された高速化合物のスケーリングは活性化の増大に近づき、精度は優れたものとなる。
これにより、現代のメモリ制限ハードウェア(GPU、TPUなど)のスピードアップに匹敵する。
より一般的には、この研究が様々な計算制約下でのスケーリング戦略の分析と選択のためのフレームワークを提供することを期待している。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文 参考訳(メタデータ) (2025-02-17T17:20:41Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural
Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。
我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。
本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文 参考訳(メタデータ) (2024-02-19T09:52:45Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文 参考訳(メタデータ) (2022-07-15T03:16:43Z) - Adaptive Perturbation for Adversarial Attack [50.77612889697216]
そこで本研究では,新たな逆例に対する勾配に基づく攻撃手法を提案する。
逆方向の摂動を発生させるために,スケーリング係数を用いた正確な勾配方向を用いる。
本手法は, 高い伝達性を示し, 最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-27T07:57:41Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。
ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。
私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文 参考訳(メタデータ) (2021-03-13T00:18:19Z) - Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。
本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。
データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文 参考訳(メタデータ) (2021-02-12T18:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。