論文の概要: Dual Complementary Dynamic Convolution for Image Recognition
- arxiv url: http://arxiv.org/abs/2211.06163v1
- Date: Fri, 11 Nov 2022 12:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:31:33.726463
- Title: Dual Complementary Dynamic Convolution for Image Recognition
- Title(参考訳): 画像認識のための二重補完動的畳み込み
- Authors: Longbin Yan, Yunxiao Qin, Shumin Liu, Jie Chen
- Abstract要約: 畳み込みニューラルネットワーク(CNN)のための2分岐二重補完動的畳み込み演算子(DCDC)を提案する。
DCDCオペレータは、バニラ畳み込みと、空間適応的特徴のみをキャプチャする既存の動的畳み込みの制限を克服する。
実験により、DCDCオペレーターベースのResNets(DCDC-ResNets)は、画像分類におけるバニラResNetsや最先端の動的畳み込みネットワークよりも著しく優れていることが示された。
- 参考スコア(独自算出の注目度): 13.864357201410648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a powerful engine, vanilla convolution has promoted huge breakthroughs in
various computer tasks. However, it often suffers from sample and content
agnostic problems, which limits the representation capacities of the
convolutional neural networks (CNNs). In this paper, we for the first time
model the scene features as a combination of the local spatial-adaptive parts
owned by the individual and the global shift-invariant parts shared to all
individuals, and then propose a novel two-branch dual complementary dynamic
convolution (DCDC) operator to flexibly deal with these two types of features.
The DCDC operator overcomes the limitations of vanilla convolution and most
existing dynamic convolutions who capture only spatial-adaptive features, and
thus markedly boosts the representation capacities of CNNs. Experiments show
that the DCDC operator based ResNets (DCDC-ResNets) significantly outperform
vanilla ResNets and most state-of-the-art dynamic convolutional networks on
image classification, as well as downstream tasks including object detection,
instance and panoptic segmentation tasks, while with lower FLOPs and
parameters.
- Abstract(参考訳): 強力なエンジンとして、バニラ畳み込みは様々なコンピュータタスクにおいて大きなブレークスルーを促進させた。
しかし、しばしばサンプルや内容に依存しない問題に悩まされ、畳み込みニューラルネットワーク(CNN)の表現能力を制限する。
本稿では,各個人が共有する局所的空間適応部分と全個人が共有するグローバルシフト不変部分の組み合わせとして,シーンの特徴を初めてモデル化し,これら2つの特徴を柔軟に扱うための新しい2分岐2相補的動的畳み込み(dcdcdc)演算子を提案する。
DCDCオペレータはバニラ畳み込みの限界を克服し、既存の動的畳み込みは空間適応的な特徴のみを捉え、CNNの表現能力を大幅に向上させる。
実験の結果,DCDC 演算子ベースの ResNets (DCDC-ResNets) は,画像分類におけるバニラ ResNets や最先端の動的畳み込みネットワーク,オブジェクト検出やインスタンス,汎視的セグメンテーションタスクなどの下流タスク,より低いFLOP やパラメータよりも優れていた。
関連論文リスト
- TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - OneDConv: Generalized Convolution For Transform-Invariant Representation [76.15687106423859]
一般化された一次元畳み込み作用素(OneDConv)を提案する。
計算的かつパラメトリック的に効率的な方法で入力特徴に基づいて、畳み込みカーネルを動的に変換する。
一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を改善する。
論文 参考訳(メタデータ) (2022-01-15T07:44:44Z) - Optimising for Interpretability: Convolutional Dynamic Alignment
Networks [108.83345790813445]
我々は、畳み込み動的アライメントネットワーク(CoDA Nets)と呼ばれる新しいニューラルネットワークモデルを紹介する。
彼らの中核となるビルディングブロックは動的アライメントユニット(DAU)であり、タスク関連パターンに合わせて動的に計算された重みベクトルで入力を変換するように最適化されている。
CoDAネットは一連の入力依存線形変換を通じて分類予測をモデル化し、出力を個々の入力コントリビューションに線形分解することができる。
論文 参考訳(メタデータ) (2021-09-27T12:39:46Z) - DMSANet: Dual Multi Scale Attention Network [0.0]
我々は,最高の性能を達成するだけでなく,既存のモデルに比べてパラメータも少ない新しいアテンションモジュールを提案する。
私たちの注目モジュールは、軽量な性質のため、他の畳み込みニューラルネットワークと容易に統合できます。
論文 参考訳(メタデータ) (2021-06-13T10:31:31Z) - Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks [0.0]
本稿では,多経路完全連結パターン(MPFC)という概念を導入し,位相パターンの相互依存性,精度,効率性を再考する。
MPFCにインスパイアされた動的クローントランス (DCT) と呼ばれるデュアルブランチモジュールを提案し、入力から複数の複製を生成する。
論文 参考訳(メタデータ) (2021-06-12T13:42:28Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Dynamic Group Convolution for Accelerating Convolutional Neural Networks [23.644124360336754]
本稿では,各グループ内で接続すべき入力チャネルのどの部分を適応的に選択する動的グループ畳み込み(DGC)を提案する。
複数のグループは、入力画像ごとに、豊富で相補的な視覚的/意味的特徴を適応的にキャプチャすることができる。
DGCは元のネットワーク構造を保持し、従来のグループ畳み込みと同様の計算効率を持つ。
論文 参考訳(メタデータ) (2020-07-08T16:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。