論文の概要: CompOFA: Compound Once-For-All Networks for Faster Multi-Platform
Deployment
- arxiv url: http://arxiv.org/abs/2104.12642v1
- Date: Mon, 26 Apr 2021 15:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:55:44.113757
- Title: CompOFA: Compound Once-For-All Networks for Faster Multi-Platform
Deployment
- Title(参考訳): CompOFA: より高速なマルチプラットフォームデプロイメントのための複合ネットワーク
- Authors: Manas Sahni, Shreya Varshini, Alind Khare, Alexey Tumanov
- Abstract要約: CompOFAは、精度レイテンシフロンティアに近いモデルに対する検索を制限します。
簡単な実験であっても、トレーニング時間の2倍の短縮とモデル探索/抽出時間の216倍の高速化を実現できることを実証する。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of CNNs in mainstream deployment has necessitated methods to
design and train efficient architectures tailored to maximize the accuracy
under diverse hardware & latency constraints. To scale these resource-intensive
tasks with an increasing number of deployment targets, Once-For-All (OFA)
proposed an approach to jointly train several models at once with a constant
training cost. However, this cost remains as high as 40-50 GPU days and also
suffers from a combinatorial explosion of sub-optimal model configurations. We
seek to reduce this search space -- and hence the training budget -- by
constraining search to models close to the accuracy-latency Pareto frontier. We
incorporate insights of compound relationships between model dimensions to
build CompOFA, a design space smaller by several orders of magnitude. Through
experiments on ImageNet, we demonstrate that even with simple heuristics we can
achieve a 2x reduction in training time and 216x speedup in model
search/extraction time compared to the state of the art, without loss of Pareto
optimality! We also show that this smaller design space is dense enough to
support equally accurate models for a similar diversity of hardware and latency
targets, while also reducing the complexity of the training and subsequent
extraction algorithms.
- Abstract(参考訳): メインストリームデプロイメントにおけるcnnの出現は、多様なハードウェアとレイテンシの制約下での精度を最大化するために調整された効率的なアーキテクチャの設計と訓練の方法を必要としている。
これらのリソース集約的なタスクをデプロイ目標数の増加とともにスケールアップするために、Imped-For-All(OFA)は、一定のトレーニングコストで複数のモデルを同時にトレーニングするアプローチを提案した。
しかしながら、このコストは40-50gpu日という高いままであり、サブ最適モデル構成の組合せ的な爆発に苦しむ。
私たちは、精度の低いParetoフロンティアに近いモデルにサーチを制限することで、この検索スペースを減らそうとしています。
モデル次元間の複合関係の洞察を取り入れて、数桁の規模で小さなデザイン空間であるCompOFAを構築する。
imagenetの実験を通じて、単純なヒューリスティックであっても、paretoの最適性を損なうことなく、トレーニング時間の2倍、モデル検索/抽出時間の216倍のスピードアップを達成できることを実証する。
また、この小さな設計空間は、ハードウェアと遅延ターゲットの類似の多様性に対して同等に正確なモデルをサポートするのに十分な密度であり、トレーニングとその後の抽出アルゴリズムの複雑さを低減できることを示す。
関連論文リスト
- Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - Equivariant Differentially Private Deep Learning: Why DP-SGD Needs
Sparser Models [7.49320945341034]
小型で効率的なアーキテクチャ設計は、計算要求がかなり少ない最先端のモデルよりも優れていることを示す。
私たちの結果は、パラメータを最適に活用する効率的なモデルアーキテクチャへの一歩です。
論文 参考訳(メタデータ) (2023-01-30T17:43:47Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。
本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文 参考訳(メタデータ) (2022-06-17T11:16:28Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Pruning In Time (PIT): A Lightweight Network Architecture Optimizer for
Temporal Convolutional Networks [20.943095081056857]
時間的畳み込みネットワーク(TCN)は、時系列処理タスクのためのディープラーニングモデルを約束している。
本稿では,時間軸の重み付け問題に対処し,重みとともに拡張因子を学習する自動拡張法を提案する。
論文 参考訳(メタデータ) (2022-03-28T14:03:16Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Fast-Convergent Federated Learning [82.32029953209542]
フェデレーション学習は、モバイルデバイスの現代的なネットワークを介して機械学習タスクを分散するための、有望なソリューションである。
本稿では,FOLBと呼ばれる高速収束型フェデレーション学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-26T14:37:51Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。