Fugu-MT 論文翻訳(概要): Fast and Accurate Model Scaling

論文の概要: Fast and Accurate Model Scaling

arxiv url: http://arxiv.org/abs/2103.06877v1
Date: Thu, 11 Mar 2021 18:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-12 14:54:02.590377
Title: Fast and Accurate Model Scaling
Title（参考訳）: 高速かつ正確なモデルスケーリング
Authors: Piotr Doll\'ar and Mannat Singh and Ross Girshick
Abstract要約: スケーリング戦略には、モデル幅、深さ、解像度などが含まれる。様々なスケーリング戦略がモデルパラメータやアクティベーションに影響を与え、結果として実際のランタイムは大きく異なることが分かる。現在の一般的なスケーリング戦略とは異なり、モデルアクティベーションw.r.t.の約$O(sqrts)$増加は、提案された高速複合スケーリングの結果は、アクティベーションの約$O(sqrts)$増加に近づき、優れた精度を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work we analyze strategies for convolutional neural network scaling; that is, the process of scaling a base convolutional network to endow it with greater computational complexity and consequently representational power. Example scaling strategies may include increasing model width, depth, resolution, etc. While various scaling strategies exist, their tradeoffs are not fully understood. Existing analysis typically focuses on the interplay of accuracy and flops (floating point operations). Yet, as we demonstrate, various scaling strategies affect model parameters, activations, and consequently actual runtime quite differently. In our experiments we show the surprising result that numerous scaling strategies yield networks with similar accuracy but with widely varying properties. This leads us to propose a simple fast compound scaling strategy that encourages primarily scaling model width, while scaling depth and resolution to a lesser extent. Unlike currently popular scaling strategies, which result in about $O(s)$ increase in model activation w.r.t. scaling flops by a factor of $s$, the proposed fast compound scaling results in close to $O(\sqrt{s})$ increase in activations, while achieving excellent accuracy. This leads to comparable speedups on modern memory-limited hardware (e.g., GPU, TPU). More generally, we hope this work provides a framework for analyzing and selecting scaling strategies under various computational constraints.
Abstract（参考訳）: 本研究では,畳み込みニューラルネットワークのスケーリング戦略を分析する。つまり,畳み込みネットワークをスケールして,計算の複雑さと表現力を高めるプロセスである。スケーリング戦略の例としては、モデル幅、深さ、解像度などの増加がある。さまざまなスケーリング戦略が存在するが、そのトレードオフは完全には理解されていない。既存の分析は、通常、精度とフロップ(浮動小数点演算)の相互作用に焦点を当てます。しかし、我々が示すように、さまざまなスケーリング戦略はモデルパラメータ、アクティベーション、結果として実際のランタイムにまったく異なる影響を与えます。我々の実験では、多くのスケーリング戦略が類似の精度でネットワークを産み出すが、その特性は様々である。これにより、主にモデル幅をスケーリングするだけでなく、深さと解像度を小さくするシンプルな高速複合スケーリング戦略を提案します。現在普及しているスケーリング戦略とは異なり、モデルアクティベーションw.r.tの約$ O(s)$増加をもたらす。フロップを$s$の因子でスケーリングすると、提案された高速化合物のスケーリングは活性化の増大に近づき、精度は優れたものとなる。これにより、現代のメモリ制限ハードウェア(GPU、TPUなど)のスピードアップに匹敵する。より一般的には、この研究が様々な計算制約下でのスケーリング戦略の分析と選択のためのフレームワークを提供することを期待している。

関連論文リスト

Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文参考訳（メタデータ） (2025-05-26T20:58:45Z)
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文参考訳（メタデータ） (2025-05-16T08:28:57Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文参考訳（メタデータ） (2025-02-17T17:20:41Z)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳（メタデータ） (2025-02-17T07:21:11Z)
The N-Grammys: Accelerating Autoregressive Inference with Learning-Free Batched Speculation [48.52206677611072]
投機的復号化は、より小さなドラフトモデルによって生成されたトークンを並列に検証することで、言語モデルの自己回帰生成を高速化することを目的としている。単純な戦略の組み合わせは、異なるタスクに対して大きな推論スピードアップを達成できることを示す。
論文参考訳（メタデータ） (2024-11-06T09:23:50Z)
The Importance of Being Scalable: Improving the Speed and Accuracy of Neural Network Interatomic Potentials Across Chemical Domains [4.340917737559795]
ニューラルネットワーク原子間ポテンシャル(NNIP)のスケーリングに関する研究 NNIPは、ab initio量子力学計算の代理モデルとして機能する。我々は、スケーリング用に設計されたNNIPアーキテクチャを開発する: 効率よくスケールされた意識的原子間ポテンシャル(EScAIP)
論文参考訳（メタデータ） (2024-10-31T17:35:57Z)
Beyond Uniform Scaling: Exploring Depth Heterogeneity in Neural Architectures [9.91972450276408]
本稿では,2次損失景観情報を活用した自動スケーリング手法を提案する。我々の手法は、現代の視覚変換器におけるメインステイの接続をスキップするために柔軟である。本稿では,視覚変換器の最初の無傷スケーリング機構について紹介する。
論文参考訳（メタデータ） (2024-02-19T09:52:45Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。 LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-09-26T22:22:30Z)
ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文参考訳（メタデータ） (2022-07-15T03:16:43Z)
Adaptive Perturbation for Adversarial Attack [50.77612889697216]
そこで本研究では,新たな逆例に対する勾配に基づく攻撃手法を提案する。逆方向の摂動を発生させるために,スケーリング係数を用いた正確な勾配方向を用いる。本手法は, 高い伝達性を示し, 最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-11-27T07:57:41Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
Revisiting ResNets: Improved Training and Scaling Strategies [54.0162571976267]
トレーニングとスケーリングの戦略は、アーキテクチャの変更よりも重要であり、その結果、ResNetは最新のモデルと一致します。ベストパフォーマンスなスケーリング戦略は、トレーニング体制に依存することを示します。私たちは、ResNetアーキテクチャのファミリー、ResNet-RSを設計します。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍 - 2.7倍高速です。
論文参考訳（メタデータ） (2021-03-13T00:18:19Z)
Explaining Neural Scaling Laws [17.115592382420626]
訓練されたディープニューラルネットワークの人口減少は、しばしば正確なパワー-ロースケーリング関係に従う。本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。データセットとモデルサイズの両方に対する分散制限と分解能制限のスケーリング挙動を同定する。
論文参考訳（メタデータ） (2021-02-12T18:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。