論文の概要: Efficient Modulation for Vision Networks
- arxiv url: http://arxiv.org/abs/2403.19963v1
- Date: Fri, 29 Mar 2024 03:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:34:41.919245
- Title: Efficient Modulation for Vision Networks
- Title(参考訳): ビジョンネットワークの効率的な変調
- Authors: Xu Ma, Xiyang Dai, Jianwei Yang, Bin Xiao, Yinpeng Chen, Yun Fu, Lu Yuan,
- Abstract要約: 我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。
変調機構が特に効率的なネットワークに適していることを実証する。
私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
- 参考スコア(独自算出の注目度): 122.1051910402034
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we present efficient modulation, a novel design for efficient vision networks. We revisit the modulation mechanism, which operates input through convolutional context modeling and feature projection layers, and fuses features via element-wise multiplication and an MLP block. We demonstrate that the modulation mechanism is particularly well suited for efficient networks and further tailor the modulation design by proposing the efficient modulation (EfficientMod) block, which is considered the essential building block for our networks. Benefiting from the prominent representational ability of modulation mechanism and the proposed efficient design, our network can accomplish better trade-offs between accuracy and efficiency and set new state-of-the-art performance in the zoo of efficient networks. When integrating EfficientMod with the vanilla self-attention block, we obtain the hybrid architecture which further improves the performance without loss of efficiency. We carry out comprehensive experiments to verify EfficientMod's performance. With fewer parameters, our EfficientMod-s performs 0.6 top-1 accuracy better than EfficientFormerV2-s2 and is 25% faster on GPU, and 2.9 better than MobileViTv2-1.0 at the same GPU latency. Additionally, our method presents a notable improvement in downstream tasks, outperforming EfficientFormerV2-s by 3.6 mIoU on the ADE20K benchmark. Code and checkpoints are available at https://github.com/ma-xu/EfficientMod.
- Abstract(参考訳): 本稿では,効率的なビジョンネットワークのための新しい設計である,効率的な変調法を提案する。
我々は、畳み込みコンテキストモデリングと特徴投影層を通して入力を動作させる変調機構を再検討し、要素ワイド乗算とMLPブロックを介して特徴を融合する。
本稿では,この変調機構が効率的なネットワークに特に適しており,効率的な変調(効率的なMod)ブロックを提案することで,変調設計の調整が可能であることを実証する。
変調機構の顕著な表現能力と提案した効率的な設計により、ネットワークは精度と効率のトレードオフを向上し、効率的なネットワークの動物園における新しい最先端性能を設定できる。
EfficientModをバニラ自己注意ブロックに統合すると、効率を損なうことなく性能をさらに向上するハイブリッドアーキテクチャが得られる。
EfficientModのパフォーマンスを検証するための総合的な実験を行います。
パラメータが少ないため、EfficientMod-sはEfficientFormerV2-s2よりも0.6トップ-1精度が良く、GPUでは25%速く、同じGPUレイテンシではMobileViTv2-1.0より2.9良い。
さらに,本手法は,ADE20KベンチマークでEfficientFormerV2-sを3.6mIoUで上回り,下流タスクの顕著な改善を示す。
コードとチェックポイントはhttps://github.com/ma-xu/EfficientMod.comで入手できる。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming [27.09017677987757]
マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。
モジュールハイブリッドシステムにおけるビームフォーミングのための電力指向最適化アルゴリズムを提案する。
低分解能位相シフトによる計算の高速化を通じて、学習者によって効率の良いビームフォーミングがいかに促進されるかを示す。
論文 参考訳(メタデータ) (2024-08-01T10:19:25Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - EfficientViT: Memory Efficient Vision Transformer with Cascaded Group
Attention [44.148667664413004]
我々はEfficientViTという高速視覚変換器群を提案する。
既存のトランスモデルの速度は、一般にメモリ非効率な演算によって制限される。
この問題に対処するため,異なるスプリットのアテンションヘッドを刺激するグループアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-11T17:59:41Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - Virtuoso: Video-based Intelligence for real-time tuning on SOCs [24.086595996055074]
Underlying Virtuosoはマルチブランチ実行カーネルで、精度-エネルギー-遅延軸の異なる動作ポイントで実行することができる。
我々は、Faster R-CNN (FRCNN)、YOLO v3、SSD、EfficientDet、SELSA、MEGA、REPP、FastAdapt、およびFRCNN+、YOLO+、SSD+、EfficientDet+を含む15の最先端または広く使用されているプロトコルをベンチマークする。
論文 参考訳(メタデータ) (2021-12-24T14:47:41Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Weight-dependent Gates for Network Pruning [24.795174721078528]
本論では, 刈り取り決定は畳み込み重みに依存するべきであり, フィルタ重みから情報を学習し, フィルタのプーンや保持を自動的に行うための二分ゲートを得るための新しい重み依存ゲート (W-Gates) を提案する。
我々は,提案手法の有効性をResNet34,ResNet50,MobileNet V2で実証した。
論文 参考訳(メタデータ) (2020-07-04T10:29:07Z) - An Efficient Accelerator Design Methodology for Deformable Convolutional
Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。
受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。
我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2020-06-09T13:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。