論文の概要: Dilated Convolution with Learnable Spacings: beyond bilinear
interpolation
- arxiv url: http://arxiv.org/abs/2306.00817v2
- Date: Fri, 22 Sep 2023 20:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 02:20:09.547858
- Title: Dilated Convolution with Learnable Spacings: beyond bilinear
interpolation
- Title(参考訳): 学習可能な間隔を持つ拡張畳み込み--双線型補間を超えて
- Authors: Ismail Khalfaoui-Hassani, Thomas Pellegrini, Timoth\'ee Masquelier
- Abstract要約: Dilated Convolution with Learnable Spacingsは拡張畳み込みのバリエーションとして提案されている。
非整数位置は勾配によって処理される。
メソッドコードはPyTorchに基づいている。
- 参考スコア(独自算出の注目度): 10.89964981012741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dilated Convolution with Learnable Spacings (DCLS) is a recently proposed
variation of the dilated convolution in which the spacings between the non-zero
elements in the kernel, or equivalently their positions, are learnable.
Non-integer positions are handled via interpolation. Thanks to this trick,
positions have well-defined gradients. The original DCLS used bilinear
interpolation, and thus only considered the four nearest pixels. Yet here we
show that longer range interpolations, and in particular a Gaussian
interpolation, allow improving performance on ImageNet1k classification on two
state-of-the-art convolutional architectures (ConvNeXt and Conv\-Former),
without increasing the number of parameters. The method code is based on
PyTorch and is available at
https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch
- Abstract(参考訳): Dilated Convolution with Learnable Spacings (DCLS) は、最近提案された拡張畳み込みの変種であり、カーネル内のゼロでない要素間の間隔、またはそれらの位置が学習可能である。
非整数位置は補間によって処理される。
このトリックのおかげで、位置はよく定義された勾配を持つ。
オリジナルのDCLSは双線形補間を使用しており、そのため最も近い4つのピクセルのみが考慮された。
しかし、より長い範囲の補間、特にガウス補間は、2つの最先端の畳み込みアーキテクチャ(convnextとconv\-former)におけるimagenet1k分類のパフォーマンスをパラメータ数を増加させることなく改善できることを示している。
メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorchで利用可能である。
関連論文リスト
- LDConv: Linear deformable convolution for improving convolutional neural networks [18.814748446649627]
Linear Deformable Convolution (LDConv) は、ネットワーク性能を改善するために畳み込み操作を置き換えることができる、プラグアンドプレイの畳み込み操作である。
LDConvは、標準畳み込みと変形可能なConvのパラメータ数の成長傾向を線形成長に補正する。
論文 参考訳(メタデータ) (2023-11-20T07:54:54Z) - Audio classification with Dilated Convolution with Learnable Spacings [10.89964981012741]
学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
ここでは、AudioSet分類ベンチマークを用いて、DCLSはオーディオタグ付けにも有用であることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:09:54Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - Interpolating Points on a Non-Uniform Grid using a Mixture of Gaussians [0.0]
ガウス混合モデルに基づく一様でない画像を生成する手法を提案する。
従来の画像方法は、補間したい座標が一様格子上に配置されていると仮定します。
論文 参考訳(メタデータ) (2020-12-24T13:59:39Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z) - Multiple Video Frame Interpolation via Enhanced Deformable Separable
Convolution [67.83074893311218]
カーネルベースの手法は、ソースフレームと空間適応型ローカルカーネルを囲む単一の畳み込みプロセスでピクセルを予測する。
本稿では,適応カーネルだけでなく,オフセット,マスク,バイアスを推定するための拡張変形性分離畳み込み(EDSC)を提案する。
提案手法は,幅広いデータセットを対象とした最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-06-15T01:10:59Z) - Region adaptive graph fourier transform for 3d point clouds [51.193111325231165]
本稿では,3次元点雲特性の圧縮のための領域適応グラフフーリエ変換(RA-GFT)を提案する。
RA-GFTは従来の手法よりも複雑性と性能のトレードオフが優れている。
論文 参考訳(メタデータ) (2020-03-04T02:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。