論文の概要: AutoTailor: Automatic and Efficient Adaptive Model Deployment for Diverse Edge Devices
- arxiv url: http://arxiv.org/abs/2511.22355v1
- Date: Thu, 27 Nov 2025 11:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.542869
- Title: AutoTailor: Automatic and Efficient Adaptive Model Deployment for Diverse Edge Devices
- Title(参考訳): AutoTailor: エッジデバイスの自動的かつ効率的な適応モデル展開
- Authors: Mengyang Liu, Chenyu Lu, Haodong Tian, Fang Dong, Ruiting Zhou, Wei Wang, Dian Shen, Guangtong Li, Ye Wan, Li Li,
- Abstract要約: AutoTailorは、エッジデバイス向けの自動化されたエンドツーエンドのSuperNetベースのアダプティブモデルデプロイメントを可能にするフレームワークである。
学習不要のレイテンシと精度予測を組み込んで、低コストで正確なパフォーマンス予測を可能にする。
拡張された評価では、AutoTailorはSuperNet構築のためのコード行数を11-27$times$に減らし、ハードウェア対応のプロファイリングコストを少なくとも11$times$に減らし、絶対精度を最大15.60%向上することを示した。
- 参考スコア(独自算出の注目度): 12.771481494725364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-device machine learning (ML) has become a fundamental component of emerging mobile applications. Adaptive model deployment delivers efficient inference for heterogeneous device capabilities and performance requirements through customizing neural architectures. SuperNet-based approaches offer a promising solution by generating a large number of model variants from a pre-trained ML model. However, applying SuperNet in existing frameworks suffers from tedious model-aware development and time-consuming hardware-aware profiling, which limits their practical adoption. We present AutoTailor, the first framework to enable automated, end-to-end SuperNet-based adaptive model deployment for edge devices. Unlike manual SuperNet construction, AutoTailor employs a computation graph-guided compilation approach to automatically transform user-provided ML models into SuperNets. To support efficient specialization, AutoTailor incorporates learning-free latency and accuracy predictors, enabling low-cost yet accurate performance prediction. Our extended evaluations demonstrate that AutoTailor reduces the lines of code for SuperNet construction by 11--27$\times$, decreases hardware-aware profiling costs by at least 11$\times$, and achieves up to 15.60\% absolute accuracy improvement and 60.03\% latency reduction compared to state-of-the-art approaches across diverse models and devices.
- Abstract(参考訳): オンデバイス機械学習(ML)は、新興モバイルアプリケーションの基本コンポーネントとなっている。
適応モデルデプロイメントは、ニューラルネットワークをカスタマイズすることで、異種デバイス機能とパフォーマンス要件に対する効率的な推論を提供する。
SuperNetベースのアプローチは、事前訓練されたMLモデルから多数のモデル変種を生成することによって、有望なソリューションを提供する。
しかし、SuperNetを既存のフレームワークに適用することは、退屈なモデル認識開発と時間を要するハードウェア認識プロファイリングに悩まされ、実用的採用が制限される。
我々は、エッジデバイス向けの自動化されたエンドツーエンドのSuperNetベースのアダプティブモデルデプロイメントを可能にする最初のフレームワークであるAutoTailorを紹介する。
手動のSuperNet構築とは異なり、AutoTailorは計算グラフ誘導コンパイルアプローチを使用して、ユーザが提供するMLモデルをSuperNetに自動的に変換する。
効率的な特殊化をサポートするために、AutoTailorは学習不要のレイテンシと精度予測器を導入し、低コストで正確なパフォーマンス予測を可能にする。
拡張された評価では、AutoTailorはSuperNet構築のためのコード行数を11-27$\times$に減らし、ハードウェアを意識したプロファイリングコストを少なくとも11$\times$に減らし、さまざまなモデルやデバイスにまたがる最先端アプローチと比較して15.60\%の精度向上と60.03\%のレイテンシ削減を実現している。
関連論文リスト
- Elastic ViTs from Pretrained Models without Retraining [74.5386166956142]
ビジョンファウンデーションモデルは優れたパフォーマンスを達成するが、事前決定されたサイズの限られたセットでしか利用できない。
本稿では, プルーニングされた視覚変換器のためのシングルショットネットワーク近似であるSnapViTを紹介する。
提案手法は,進化的アルゴリズムを用いて近似した勾配情報とクロスネットワーク構造相関を効率的に結合する。
論文 参考訳(メタデータ) (2025-10-20T16:15:03Z) - SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models [2.867517731896504]
SQFTは、大規模事前学習モデルの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションである。
SQFTは資源制約のある環境で効果的なモデル操作を可能にする。
SQFTはまた、異なる数値精度の量子化重みとアダプタを持つという課題にも対処している。
論文 参考訳(メタデータ) (2024-10-01T19:49:35Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。