論文の概要: Navigating Scaling Laws: Accelerating Vision Transformer's Training via
Adaptive Strategies
- arxiv url: http://arxiv.org/abs/2311.03233v1
- Date: Mon, 6 Nov 2023 16:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:49:27.746954
- Title: Navigating Scaling Laws: Accelerating Vision Transformer's Training via
Adaptive Strategies
- Title(参考訳): スケーリング法則のナビゲート:適応戦略によるビジョントランスフォーマーのトレーニングの加速
- Authors: Sotiris Anagnostidis, Gregor Bachmann, Thomas Hofmann
- Abstract要約: 我々は視覚タスクとビジョントランスフォーマーのファミリーに焦点を当て、パッチサイズと幅が適応的な形状パラメータとして自然に機能する。
我々は、スケーリング法則によって導かれ、彼らの"静的"モデルに勝る計算最適適応モデルを設計できることを実証した。
- 参考スコア(独自算出の注目度): 40.71890456965875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the state-of-the-art in deep learning has been dominated by
very large models that have been pre-trained on vast amounts of data. The
paradigm is very simple: Investing more computational resources (optimally)
leads to better performance, and even predictably so; neural scaling laws have
been derived that accurately forecast the performance of a network for a
desired level of compute. This leads to the notion of a "compute-optimal"
model, i.e. a model that allocates a given level of compute during training
optimally to maximise performance. In this work, we extend the concept of
optimality by allowing for an "adaptive" model, i.e. a model that can change
its shape during the course of training. By allowing the shape to adapt, we can
optimally traverse between the underlying scaling laws, leading to a
significant reduction in the required compute to reach a given target
performance. We focus on vision tasks and the family of Vision Transformers,
where the patch size as well as the width naturally serve as adaptive shape
parameters. We demonstrate that, guided by scaling laws, we can design
compute-optimal adaptive models that beat their "static" counterparts.
- Abstract(参考訳): 近年、ディープラーニングの最先端技術は、大量のデータで事前学習された非常に大きなモデルによって支配されている。
より多くの計算リソース(最適に)を投資することで、パフォーマンスが向上し、予測可能な結果が得られ、ニューラルネットワークのスケーリング法則が導出され、所望の計算レベルに対してネットワークのパフォーマンスを正確に予測する。
これは"計算最適"モデルの概念、すなわち、トレーニング中に与えられた計算レベルを最適に割り当ててパフォーマンスを最大化するモデルへと繋がる。
本研究は,「適応的」なモデル,すなわちトレーニング中にその形状を変化させることができるモデルを可能にすることで,最適性の概念を拡張する。
形状を適応させることで、基礎となるスケーリング法則を最適に横切ることができ、所定の目標性能に達するために必要な計算量が大幅に削減される。
我々は視覚タスクとビジョントランスフォーマーのファミリーに焦点を当て、パッチサイズと幅が適応的な形状パラメータとして自然に機能する。
我々は、スケーリング法則によって導かれ、彼らの"静的"モデルを上回る計算最適適応モデルを設計できることを実証した。
関連論文リスト
- The interplay between domain specialization and model size: a case study in the legal domain [8.653321928148547]
計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。
モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。