論文の概要: Moses: Efficient Exploitation of Cross-device Transferable Features for
Tensor Program Optimization
- arxiv url: http://arxiv.org/abs/2201.05752v1
- Date: Sat, 15 Jan 2022 03:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 15:26:16.090237
- Title: Moses: Efficient Exploitation of Cross-device Transferable Features for
Tensor Program Optimization
- Title(参考訳): Moses: テンソルプログラム最適化のためのクロスデバイストランスファー可能な機能の効率的な爆発
- Authors: Zhihe Zhao, Xian Shuai, Yang Bai, Neiwen Ling, Nan Guan, Zhenyu Yan,
Guoliang Xing
- Abstract要約: 本研究では,宝くじの仮説に基づく簡易かつ効率的な設計法であるMosesを提案する。
最先端のアプローチと比較して、Mosesは検索段階で最大1.53倍の効率向上を達成する。
- 参考スコア(独自算出の注目度): 10.115260534967645
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Achieving efficient execution of machine learning models has attracted
significant attention recently. To generate tensor programs efficiently, a key
component of DNN compilers is the cost model that can predict the performance
of each configuration on specific devices. However, due to the rapid emergence
of hardware platforms, it is increasingly labor-intensive to train
domain-specific predictors for every new platform. Besides, current design of
cost models cannot provide transferable features between different hardware
accelerators efficiently and effectively. In this paper, we propose Moses, a
simple and efficient design based on the lottery ticket hypothesis, which fully
takes advantage of the features transferable to the target device via domain
adaptation. Compared with state-of-the-art approaches, Moses achieves up to
1.53X efficiency gain in the search stage and 1.41X inference speedup on
challenging DNN benchmarks.
- Abstract(参考訳): 近年,機械学習モデルの効率的な実行が注目されている。
テンソルプログラムを効率的に生成するために、DNNコンパイラの主要なコンポーネントは、特定のデバイスにおける各構成のパフォーマンスを予測できるコストモデルである。
しかし、ハードウェアプラットフォームの急速な出現により、新しいプラットフォームごとにドメイン固有の予測器をトレーニングすることがますます難しくなっている。
さらに、現在のコストモデルの設計では、異なるハードウェアアクセラレータ間で効率的に効率的に伝達可能な機能を提供できない。
本稿では,ドメイン適応によってターゲットデバイスに転送可能な機能を十分に活用した,抽選券仮説に基づく簡易かつ効率的な設計であるmosesを提案する。
最先端のアプローチと比較して、Mosesは検索段階で最大1.53倍の効率向上と、挑戦的なDNNベンチマークでの1.41倍の推論高速化を実現している。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design [11.857890662690448]
本稿では,ハードウェアとソフトウェアの共同設計による資源制約のあるハードウェアデバイス上での効率的なリアルタイムオブジェクト検出フレームワークを提案する。
その結果,提案手法はモデルサイズを大幅に削減し,実行時間を短縮できることがわかった。
論文 参考訳(メタデータ) (2024-08-02T18:47:11Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - HAPI: Hardware-Aware Progressive Inference [18.214367595727037]
畳み込みニューラルネットワーク(CNN)は最近、AIタスクの多様性における最先端技術となっている。
その人気にもかかわらず、CNN推論は依然として高い計算コストがかかる。
本研究は,ハイパフォーマンス・アーリーエグジット・ネットワークを創出するための新しい手法であるHAPIを提案する。
論文 参考訳(メタデータ) (2020-08-10T09:55:18Z) - Towards High Performance, Portability, and Productivity: Lightweight
Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。
従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。
私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文 参考訳(メタデータ) (2020-03-17T02:19:54Z) - MNN: A Universal and Efficient Inference Engine [6.830174586230231]
Mobile Neural Network (MNN) は、モバイルアプリケーションに適した汎用的で効率的な推論エンジンである。
MNN のコントリビューションには,(1) ランタイム最適化の実行を管理するプリ推論と呼ばれるメカニズムの提示,(2) 最適なパフォーマンスを達成するために演算子にカーネル最適化を提供する,(3) ハイブリッドスケジューリングを可能にするバックエンド抽象化モジュールの導入,エンジンの軽量化などが含まれている。
論文 参考訳(メタデータ) (2020-02-27T20:03:16Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。