論文の概要: SGDM: Static-Guided Dynamic Module Make Stronger Visual Models
- arxiv url: http://arxiv.org/abs/2403.18282v1
- Date: Wed, 27 Mar 2024 06:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:16:31.377589
- Title: SGDM: Static-Guided Dynamic Module Make Stronger Visual Models
- Title(参考訳): SGDM: 静的ガイド付き動的モジュールはより強力なビジュアルモデルを作る
- Authors: Wenjie Xing, Zhenchao Cui, Jing Qi,
- Abstract要約: 空間的注意機構は、物体検出性能を改善するために広く利用されている。
動的重み畳み込みの2つの欠陥に対処するため、Razor Dynamic Convolution (RDConv)を提案する。
本稿では,高周波雑音に敏感な動的畳み込みの問題を解決するため,静的畳み込みにおける共有重み付け機構を提案する。
- 参考スコア(独自算出の注目度): 0.9012198585960443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spatial attention mechanism has been widely used to improve object detection performance. However, its operation is currently limited to static convolutions lacking content-adaptive features. This paper innovatively approaches from the perspective of dynamic convolution. We propose Razor Dynamic Convolution (RDConv) to address thetwo flaws in dynamic weight convolution, making it hard to implement in spatial mechanism: 1) it is computation-heavy; 2) when generating weights, spatial information is disregarded. Firstly, by using Razor Operation to generate certain features, we vastly reduce the parameters of the entire dynamic convolution operation. Secondly, we added a spatial branch inside RDConv to generate convolutional kernel parameters with richer spatial information. Embedding dynamic convolution will also bring the problem of sensitivity to high-frequency noise. We propose the Static-Guided Dynamic Module (SGDM) to address this limitation. By using SGDM, we utilize a set of asymmetric static convolution kernel parameters to guide the construction of dynamic convolution. We introduce the mechanism of shared weights in static convolution to solve the problem of dynamic convolution being sensitive to high-frequency noise. Extensive experiments illustrate that multiple different object detection backbones equipped with SGDM achieve a highly competitive boost in performance(e.g., +4% mAP with YOLOv5n on VOC and +1.7% mAP with YOLOv8n on COCO) with negligible parameter increase(i.e., +0.33M on YOLOv5n and +0.19M on YOLOv8n).
- Abstract(参考訳): 空間的注意機構は物体検出性能を向上させるために広く利用されている。
しかし、現在その操作は、コンテンツ適応機能を持たない静的畳み込みに限られている。
本稿では動的畳み込みの観点から革新的にアプローチする。
動的重み畳み込みの2つの欠陥に対処するため,Razor Dynamic Convolution (RDConv)を提案する。
1) 計算量である。
2)重量が発生すると、空間情報は無視される。
まず,特定の特徴を生成するためにRazor Operationを使用することで,動的畳み込み操作全体のパラメータを大幅に削減する。
次に,より豊かな空間情報を持つ畳み込みカーネルパラメータを生成するために,RDConvの内部に空間分岐を追加した。
動的畳み込みを埋め込むことは、高周波ノイズに対する感度の問題を引き起こす。
この制限に対処する静的誘導動的モジュール(SGDM)を提案する。
SGDMを用いて,非対称な静的畳み込みカーネルパラメータを用いて動的畳み込みの構成を導出する。
本稿では,高周波雑音に敏感な動的畳み込みの問題を解決するため,静的畳み込みにおける共有重み付け機構を提案する。
SGDMを装着した複数の異なる物体検出バックボーンは、VOC上のYOLOv5nで4% mAP、COCO上のYOLOv8nで+1.7% mAP、無視可能なパラメータの増加(例えば、YOLOv5nで+0.33M、YOLOv8nで+0.19M)により高い競争力を発揮する。
関連論文リスト
- DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文 参考訳(メタデータ) (2023-04-13T05:22:24Z) - Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。
本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。
我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文 参考訳(メタデータ) (2022-11-22T06:54:27Z) - PAD-Net: An Efficient Framework for Dynamic Networks [72.85480289152719]
動的ネットワークを実装する際の一般的な実践は、与えられた静的レイヤを完全な動的レイヤに変換することである。
我々は、冗長な動的パラメータを静的なパラメータに変換するために、部分的に動的ネットワーク、すなわちPAD-Netを提案する。
提案手法は,2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
論文 参考訳(メタデータ) (2022-11-10T12:42:43Z) - Omni-Dimensional Dynamic Convolution [25.78940854339179]
各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の共通の訓練パラダイムである。
動的畳み込みの最近の研究は、入力依存の注意を重み付けした$n$の畳み込みカーネルの線形結合を学習することで、軽量CNNの精度を大幅に向上させることができることを示している。
より一般化されているがエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を提案する。
論文 参考訳(メタデータ) (2022-09-16T14:05:38Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Revisiting Dynamic Convolution via Matrix Decomposition [81.89967403872147]
チャネル群に対する動的注意を置き換える動的チャネル融合を提案する。
本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく削減する。
論文 参考訳(メタデータ) (2021-03-15T23:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。