論文の概要: Slimmable ConvNeXt: Width-Adaptive Inference for Efficient Multi-Device Deployment
- arxiv url: http://arxiv.org/abs/2605.22677v1
- Date: Thu, 21 May 2026 16:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.342652
- Title: Slimmable ConvNeXt: Width-Adaptive Inference for Efficient Multi-Device Deployment
- Title(参考訳): Slimmable ConvNeXt: 効率的なマルチデバイスデプロイメントのための幅適応型推論
- Authors: Janek Haberer, Jon Eike Wilhelm, Olaf Landsiedel,
- Abstract要約: 我々は、Slimmable ConvNeXtを紹介し、ConvNeXtの現代的な設計、特にLayerNormと逆ボトルネックは、チャネル幅のスリム化に特に適していることを示している。
ImageNet-1kでは、Slimmable ConvNeXt-T with 3worksは、4.5 GMACsで80.8%、1.2 GMACsで77.4%、スクラッチから600 epochsでトレーニングされた。
- 参考スコア(独自算出の注目度): 4.976815699476327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying vision models across devices with varying resource constraints, or even on a single device where available compute fluctuates due to battery state, thermal throttling, or latency deadlines, typically requires training and maintaining separate models. Width-adaptive inference addresses this by training a single set of shared weights containing multiple nested subnetworks of increasing capacity, but prior CNN-based approaches required switchable batch normalization, while recent scalable methods have focused on Vision Transformers. We present Slimmable ConvNeXt, which shows that ConvNeXt's modern design, specifically LayerNorm and inverted bottlenecks, makes it particularly suited for channel-width slimming, eliminating the normalization overhead of classical slimmable networks and producing a simpler training pipeline than both prior CNN and ViT approaches. On ImageNet-1k, Slimmable ConvNeXt-T with 3 subnetworks achieves 80.8% top-1 accuracy at 4.5 GMACs and 77.4% at 1.2 GMACs, trained from scratch for 600 epochs. At comparable compute, this exceeds HydraViT's 6-head subnetwork (78.4% at 4.6 GMACs) by 2.4 percentage points and its 3-head configuration (73.0% at 1.3 GMACs) by 4.4 percentage points, while also outperforming MatFormer-S (78.6%) and SortedNet-S (78.2%) at the same GMACs. Scaling to Slimmable ConvNeXt-B further improves maximum accuracy to 82.8% at 15.35 GMACs.
- Abstract(参考訳): さまざまなリソース制約のあるデバイスにビジョンモデルをデプロイする、あるいは利用可能な計算がバッテリ状態やサーマルスロットリング、遅延期限によって変動する単一のデバイスにさえ、通常、別々のモデルをトレーニングし、メンテナンスする必要がある。
Width-Adaptive Inferenceは、複数のネストされたサブネットを含む1組の共有重み付けをトレーニングすることでこの問題に対処するが、CNNベースの以前のアプローチでは、切り替え可能なバッチ正規化が必要であり、最近のスケーラブルメソッドではビジョントランスフォーマーに重点を置いている。
我々は、Slimmable ConvNeXtを紹介し、ConvNeXtの現代的な設計、特にLayerNormと逆のボトルネックは、チャネル幅スリム化に特に適しており、従来のスリム化可能なネットワークの正規化オーバーヘッドを排除し、以前のCNNやViTアプローチよりも簡単なトレーニングパイプラインを生成することを示している。
ImageNet-1kでは、3つのサブネットワークを持つSlimmable ConvNeXt-Tが4.5GMACで80.8%、1.2GMACで77.4%、スクラッチから600エポックでトレーニングされた。
同等の計算では、HydraViTの6ヘッドサブネットワーク(4.6 GMACsで78.4%)を2.4ポイント、その3ヘッド構成(1.3 GMACsで73.0%)を4.4ポイント、MatFormer-S(78.6%)とSortedNet-S(78.2%)を同じGMACsで上回っている。
Slimmable ConvNeXt-Bへのスケーリングにより、最大精度は15.35 GMACで82.8%向上した。
関連論文リスト
- FeatCal: Feature Calibration for Post-Merging Models [37.524690106426284]
モデルマージは、タスクエキスパートをひとつのモデルに統合し、共同トレーニング、再トレーニング、あるいは多くのエキスパートモデルのデプロイを避ける。
我々は,この性能差を特徴量ドリフト(特徴量ドリフト),マージモデルと専門家による同一入力における特徴量差から検討する。
このビューはFeatCalを動機付けている。FeatCalは、小さなキャリブレーションセットを使用して、マージされたモデルの重み付け層を前方に調整する。
論文 参考訳(メタデータ) (2026-05-13T05:35:03Z) - SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition [1.499944454332829]
SLNetは3Dポイントクラウド認識のための軽量なバックボーンである。
このモデルは、NAPE(Nonparametric Adaptive Point Embedding)とGMU(Geometric Modulation Unit)という2つの単純なアイデアに基づいて構築されている。
論文 参考訳(メタデータ) (2026-03-08T04:07:42Z) - Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - Time Frequency Analysis of EMG Signal for Gesture Recognition using Fine grained Features [3.9440964696313485]
本稿では,細粒度分類を用いた手動作認識のための新しい手法を提案する。
XMANetは、浅層から深層CNNの専門家の間での相互注意を通じて、低レベルの局所的および高レベルのセマンティックキューを統一する。
論文 参考訳(メタデータ) (2025-04-20T18:51:10Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。