論文の概要: Convolutional Networks with Oriented 1D Kernels
- arxiv url: http://arxiv.org/abs/2309.15812v1
- Date: Wed, 27 Sep 2023 17:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:32:52.797737
- Title: Convolutional Networks with Oriented 1D Kernels
- Title(参考訳): 1Dカーネルを指向した畳み込みネットワーク
- Authors: Alexandre Kirchmeyer, Jia Deng
- Abstract要約: 1次元の畳み込みで構成されたConvNetは、ImageNet分類の2次元と同様に動作可能であることを示す。
具体的には、高性能な1D ConvNetの鍵となる要素が1Dカーネルであることがわかった。
この研究の重要な貢献は、1Dカーネルの高度に最適化されたカスタム実装である。
- 参考スコア(独自算出の注目度): 73.59773900022621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computer vision, 2D convolution is arguably the most important operation
performed by a ConvNet. Unsurprisingly, it has been the focus of intense
software and hardware optimization and enjoys highly efficient implementations.
In this work, we ask an intriguing question: can we make a ConvNet work without
2D convolutions? Surprisingly, we find that the answer is yes -- we show that a
ConvNet consisting entirely of 1D convolutions can do just as well as 2D on
ImageNet classification. Specifically, we find that one key ingredient to a
high-performing 1D ConvNet is oriented 1D kernels: 1D kernels that are oriented
not just horizontally or vertically, but also at other angles. Our experiments
show that oriented 1D convolutions can not only replace 2D convolutions but
also augment existing architectures with large kernels, leading to improved
accuracy with minimal FLOPs increase. A key contribution of this work is a
highly-optimized custom CUDA implementation of oriented 1D kernels, specialized
to the depthwise convolution setting. Our benchmarks demonstrate that our
custom CUDA implementation almost perfectly realizes the theoretical advantage
of 1D convolution: it is faster than a native horizontal convolution for any
arbitrary angle. Code is available at
https://github.com/princeton-vl/Oriented1D.
- Abstract(参考訳): コンピュータビジョンでは、2D畳み込みは間違いなくConvNetによって実行される最も重要な操作である。
当然ながら、それは強烈なソフトウェアとハードウェアの最適化の焦点であり、非常に効率的な実装を享受している。
2D畳み込みなしでConvNetを動作させることができるだろうか?
驚くべきことに、1dの畳み込みからなるconvnetは、imagenetの分類において2dと同等にできることを示している。
具体的には、高性能な1D ConvNetの鍵となる要素が1Dカーネルであることがわかった。
実験の結果,指向性1次元畳み込みは2次元畳み込みを置き換えるだけでなく,既存のアーキテクチャを大型カーネルで拡張することで,FLOPの最小化による精度の向上を実現している。
この研究の重要な貢献は、奥行きの畳み込み設定に特化して、高度に最適化された1DカーネルのCUDA実装である。
我々のベンチマークは、我々のカスタムCUDA実装が1D畳み込みの理論的利点をほぼ完全に実現していることを示し、任意の角度でネイティブ水平畳み込みよりも高速である。
コードはhttps://github.com/princeton-vl/Oriented1Dで入手できる。
関連論文リスト
- OneNet: A Channel-Wise 1D Convolutional U-Net [0.0]
エッジアプリケーションへの適合性を高めつつ,精度を維持した1次元畳み込みエンコーダを提案する。
OneNetは2D畳み込みを必要とせずに空間関係をキャプチャし、パラメータを最大47%削減する。
マスク生成タスクにおけるU-Net変種に対するアプローチをベンチマークし,精度を効果的に維持できることを実証した。
論文 参考訳(メタデータ) (2024-11-14T23:11:45Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs [78.25819070166351]
本稿では,空間的分割畳み込みとその大型カーネルモジュールを提案する。
我々の大カーネル3D CNNネットワークであるLarge Kernel3Dは、3Dタスクに顕著な改善をもたらす。
初めて、大きなカーネルは3次元視覚タスクに不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-21T17:35:57Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in
Videos [24.3722621395592]
動的拡張畳み込み(D2Conv3D: Dynamic Dilated Convolutions: D2Conv3D): 拡張可能な畳み込みからインスピレーションを得て、3Dドメインに拡張する新しいタイプの畳み込みを提案する。
D2Conv3Dは,複数のビデオセグメンテーション関連ベンチマークを用いて,複数の3次元CNNアーキテクチャの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-15T14:15:28Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。