論文の概要: ScaleNet: Searching for the Model to Scale
- arxiv url: http://arxiv.org/abs/2207.07267v1
- Date: Fri, 15 Jul 2022 03:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 21:52:16.141929
- Title: ScaleNet: Searching for the Model to Scale
- Title(参考訳): ScaleNet: スケールするモデルを検索する
- Authors: Jiyang Xie and Xiu Su and Shan You and Zhanyu Ma and Fei Wang and Chen
Qian
- Abstract要約: ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
- 参考スコア(独自算出の注目度): 44.05380012545087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, community has paid increasing attention on model scaling and
contributed to developing a model family with a wide spectrum of scales.
Current methods either simply resort to a one-shot NAS manner to construct a
non-structural and non-scalable model family or rely on a manual yet fixed
scaling strategy to scale an unnecessarily best base model. In this paper, we
bridge both two components and propose ScaleNet to jointly search base model
and scaling strategy so that the scaled large model can have more promising
performance. Concretely, we design a super-supernet to embody models with
different spectrum of sizes (e.g., FLOPs). Then, the scaling strategy can be
learned interactively with the base model via a Markov chain-based evolution
algorithm and generalized to develop even larger models. To obtain a decent
super-supernet, we design a hierarchical sampling strategy to enhance its
training sufficiency and alleviate the disturbance. Experimental results show
our scaled networks enjoy significant performance superiority on various FLOPs,
but with at least 2.53x reduction on search cost. Codes are available at
https://github.com/luminolx/ScaleNet.
- Abstract(参考訳): 近年,モデルスケールに対するコミュニティの注目が高まり,幅広いスケールのモデルファミリの開発に寄与している。
現在の手法は、単に単発NAS方式で非構造的かつ非スケーリング可能なモデルファミリを構築するか、あるいは必要のない最高のベースモデルをスケールするために手動で固定されたスケーリング戦略に依存する。
本稿では,2つのコンポーネントをブリッジし,スケールネットを用いてベースモデルとスケーリング戦略を共同で探索し,スケールした大規模モデルによりより有望な性能を実現することを提案する。
具体的には、異なる大きさのモデル(FLOPなど)を具現化するスーパーネットを設計する。
次に、スケーリング戦略をマルコフ連鎖に基づく進化アルゴリズムを通じてベースモデルと対話的に学習し、さらに大きなモデルを開発するために一般化することができる。
適切なスーパーネットを得るために,トレーニングの充実と障害軽減のために階層的なサンプリング戦略を設計する。
実験の結果,大規模ネットワークは様々なFLOPに対して,少なくとも2.53倍のコストで性能上の優位性が得られた。
コードはhttps://github.com/luminolx/scalenetで入手できる。
関連論文リスト
- Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training [43.04882328763337]
拡張性のあるU-Net(STU-Net)モデルを設計し、パラメータサイズは1400万から140億まで様々である。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加がより強力なパフォーマンス向上をもたらすことを発見した。
我々は、直接推論と微調整の両方において、事前学習されたモデルの優れた性能を観察する。
論文 参考訳(メタデータ) (2023-04-13T17:59:13Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文 参考訳(メタデータ) (2022-08-17T19:13:17Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Efficient Scale-Permuted Backbone with Learned Resource Distribution [41.45085444609275]
SpineNetはResNetモデルによるオブジェクト検出と画像分類に関する有望な結果を実証している。
本稿では,効率的な演算と複合スケーリングを以前に学習したスケールパーミュートアーキテクチャと組み合わせる手法を提案する。
その結果、オブジェクト検出における最先端のEfficientNetベースモデルより効率の良いスケール置換モデルを実現し、画像分類とセマンティックセグメンテーションにおける競合性能を実現する。
論文 参考訳(メタデータ) (2020-10-22T03:59:51Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。