論文の概要: LDConv: Linear deformable convolution for improving convolutional neural networks
- arxiv url: http://arxiv.org/abs/2311.11587v3
- Date: Mon, 22 Jul 2024 13:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:16:55.031699
- Title: LDConv: Linear deformable convolution for improving convolutional neural networks
- Title(参考訳): LDConv:畳み込みニューラルネットワーク改善のための線形変形可能な畳み込み
- Authors: Xin Zhang, Yingze Song, Tingting Song, Degang Yang, Yichen Ye, Jie Zhou, Liming Zhang,
- Abstract要約: Linear Deformable Convolution (LDConv) は、ネットワーク性能を改善するために畳み込み操作を置き換えることができる、プラグアンドプレイの畳み込み操作である。
LDConvは、標準畳み込みと変形可能なConvのパラメータ数の成長傾向を線形成長に補正する。
- 参考スコア(独自算出の注目度): 18.814748446649627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks based on convolutional operations have achieved remarkable results in the field of deep learning, but there are two inherent flaws in standard convolutional operations. On the one hand, the convolution operation is confined to a local window, so it cannot capture information from other locations, and its sampled shapes is fixed. On the other hand, the size of the convolutional kernel are fixed to k $\times$ k, which is a fixed square shape, and the number of parameters tends to grow squarely with size. Although Deformable Convolution (Deformable Conv) address the problem of fixed sampling of standard convolutions, the number of parameters also tends to grow in a squared manner. In response to the above questions, the Linear Deformable Convolution (LDConv) is explored in this work, which gives the convolution kernel an arbitrary number of parameters and arbitrary sampled shapes to provide richer options for the trade-off between network overhead and performance. In LDConv, a novel coordinate generation algorithm is defined to generate different initial sampled positions for convolutional kernels of arbitrary size. To adapt to changing targets, offsets are introduced to adjust the shape of the samples at each position. LDConv corrects the growth trend of the number of parameters for standard convolution and Deformable Conv to a linear growth. Moreover, it completes the process of efficient feature extraction by irregular convolutional operations and brings more exploration options for convolutional sampled shapes. Object detection experiments on representative datasets COCO2017, VOC 7+12, and VisDrone-DET2021 fully demonstrate the advantages of LDConv. LDConv is a plug-and-play convolutional operation that can replace the convolutional operation to improve network performance. The code for the relevant tasks can be found at https://github.com/CV-ZhangXin/LDConv.
- Abstract(参考訳): 畳み込み操作に基づくニューラルネットワークは、ディープラーニングの分野で顕著な成果を上げているが、標準的な畳み込み操作には2つの固有の欠陥がある。
一方、畳み込み操作はローカルウィンドウに制限されているため、他の場所からの情報をキャプチャできず、そのサンプル形状を固定する。
一方、畳み込み核のサイズは k$\times$ k に固定されており、これは固定された正方形であり、パラメータの数はサイズとともに正方形に増加する傾向にある。
変形可能な畳み込み(Deformable Convolution, 変形可能な畳み込み)は、標準畳み込みの固定サンプリングの問題に対処するが、パラメータの数も正方形に増加する傾向にある。
上記の質問に応えて、Linear Deformable Convolution (LDConv) が研究され、畳み込みカーネルに任意の数のパラメータと任意のサンプル形状を与え、ネットワークオーバヘッドとパフォーマンスのトレードオフのためのよりリッチなオプションを提供する。
LDConvでは、任意のサイズの畳み込みカーネルに対して異なる初期サンプル位置を生成するために、新しい座標生成アルゴリズムが定義される。
ターゲットの変化に適応するために、各位置にサンプルの形状を調整するためにオフセットが導入された。
LDConvは、標準畳み込みと変形可能なConvのパラメータ数の成長傾向を線形成長に補正する。
さらに、不規則な畳み込み操作による効率的な特徴抽出のプロセスを完了し、畳み込みサンプル形状に対するさらなる探索オプションを提供する。
代表的なデータセットCOCO2017、VOC 7+12、VisDrone-DET2021のオブジェクト検出実験は、LDConvの利点を十分に証明している。
LDConvは、ネットワーク性能を改善するために畳み込み操作を置き換えることができる、プラグアンドプレイの畳み込み操作である。
関連するタスクのコードはhttps://github.com/CV-ZhangXin/LDConv.orgにある。
関連論文リスト
- Scalable Graph Compressed Convolutions [68.85227170390864]
ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能手法を提案する。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
論文 参考訳(メタデータ) (2024-07-26T03:14:13Z) - An Improved Normed-Deformable Convolution for Crowd Counting [70.02434289611566]
頭の中のCNN機能のスケール適応機能を活用するために、変形可能な畳み込みを提案する。
本論文では,改良されたノーマッド・デフォルマブル・コンボリューション(textiti.e.NDConv)を提案する。
本手法は,上海技術A,上海技術B,UCF_QNRF,UCF_CC_50データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-16T10:56:26Z) - OneDConv: Generalized Convolution For Transform-Invariant Representation [76.15687106423859]
一般化された一次元畳み込み作用素(OneDConv)を提案する。
計算的かつパラメトリック的に効率的な方法で入力特徴に基づいて、畳み込みカーネルを動的に変換する。
一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を改善する。
論文 参考訳(メタデータ) (2022-01-15T07:44:44Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - Group Shift Pointwise Convolution for Volumetric Medical Image
Segmentation [31.72090839643412]
本稿では,3次元畳み込みの有効性と効率を向上させるために,GSP-Conv(Group Shift Pointwise Convolution)を提案する。
GSP-Convは1x1x1カーネルで3D畳み込みをポイントワイズに単純化し、モデルパラメータやFLOPの数を劇的に削減する。
以上の結果から,本手法は3次元畳み込みモデルと同等あるいはそれ以上の性能が得られた。
論文 参考訳(メタデータ) (2021-09-26T15:27:33Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。