論文の概要: Contextual Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2108.07387v1
- Date: Tue, 17 Aug 2021 00:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:25:38.755784
- Title: Contextual Convolutional Neural Networks
- Title(参考訳): 文脈畳み込みニューラルネットワーク
- Authors: Ionut Cosmin Duta, Mariana Iuliana Georgescu, Radu Tudor Ionescu
- Abstract要約: 視覚認識のためのコンテキスト畳み込み(CoConv)を提案する。
CoConvは、畳み込みニューラルネットワークのコアコンポーネントである標準畳み込みの直接的な置き換えである。
- 参考スコア(独自算出の注目度): 16.378998802160375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose contextual convolution (CoConv) for visual recognition. CoConv is
a direct replacement of the standard convolution, which is the core component
of convolutional neural networks. CoConv is implicitly equipped with the
capability of incorporating contextual information while maintaining a similar
number of parameters and computational cost compared to the standard
convolution. CoConv is inspired by neuroscience studies indicating that (i)
neurons, even from the primary visual cortex (V1 area), are involved in
detection of contextual cues and that (ii) the activity of a visual neuron can
be influenced by the stimuli placed entirely outside of its theoretical
receptive field. On the one hand, we integrate CoConv in the widely-used
residual networks and show improved recognition performance over baselines on
the core tasks and benchmarks for visual recognition, namely image
classification on the ImageNet data set and object detection on the MS COCO
data set. On the other hand, we introduce CoConv in the generator of a
state-of-the-art Generative Adversarial Network, showing improved generative
results on CIFAR-10 and CelebA. Our code is available at
https://github.com/iduta/coconv.
- Abstract(参考訳): 視覚認識のためのコンテキスト畳み込み(CoConv)を提案する。
CoConvは、畳み込みニューラルネットワークのコアコンポーネントである標準畳み込みの直接的な置き換えである。
CoConvは、標準的な畳み込みと同じような数のパラメータと計算コストを維持しながら、文脈情報を組み込む機能を備えている。
CoConvは、(i)一次視覚野(V1領域)からでも、(i)一次視覚野からのニューロンが文脈的手がかりの検出に関与しており、(ii)視覚ニューロンの活動は、その理論的受容領域の外側に完全に置かれる刺激の影響を受け得ることを示す神経科学研究にインスパイアされている。
一方,我々はCoConvを広く使用されている残差ネットワークに統合し,コアタスクと画像認識のためのベンチマーク,すなわちImageNetデータセット上の画像分類,MS COCOデータセット上のオブジェクト検出において,ベースラインによる認識性能の向上を示す。
一方,CIFAR-10 と CelebA で生成結果が改善された,最先端のジェネレーティブ・アドバイザリアル・ネットワークのジェネレータにCoConvを導入している。
私たちのコードはhttps://github.com/iduta/coconv.comで利用可能です。
関連論文リスト
- Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification [3.9626211140865464]
近年,畳み込みニューラルネットワーク(CNN)のパフォーマンスが大幅に向上している。
しかし、そのサイズと複雑さのため、ブラックボックスとして機能し、透明性の懸念につながります。
本稿では,これらの手法間のギャップを埋めることを目的とした,ポストホックな説明可能性フレームワークであるVisual-TCAVを紹介する。
論文 参考訳(メタデータ) (2024-11-08T16:52:52Z) - Convolutional Kolmogorov-Arnold Networks [41.94295877935867]
我々はConvolutional Kolmogorov-Arnold Networks (Convolutional Kans)を紹介する。
本稿では,Fashion-MNISTデータセットにまたがる従来のアーキテクチャに対して,Convolutional Kansの性能を実証的に検証する。
実験の結果、Kan Convolutionsはカーネル毎に学習し、コンピュータビジョンのためのディープラーニングの新たな視野を開くことが示されている。
論文 参考訳(メタデータ) (2024-06-19T02:09:44Z) - Self-supervised Learning of Contextualized Local Visual Embeddings [0.0]
Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。
CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。
CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-10-01T00:13:06Z) - Convolutional Neural Generative Coding: Scaling Predictive Coding to
Natural Images [79.07468367923619]
畳み込み型神経生成符号化(Conv-NGC)を開発した。
我々は、潜伏状態マップを段階的に洗練する柔軟な神経生物学的動機付けアルゴリズムを実装した。
本研究は,脳にインスパイアされたニューラル・システムによる再建と画像復調の課題に対する効果について検討する。
論文 参考訳(メタデータ) (2022-11-22T06:42:41Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - Towards Language-guided Visual Recognition via Dynamic Convolutions [96.71539444139545]
言語依存型畳み込み(LaConv)と呼ばれる新しいマルチモーダル畳み込みモジュールを提案する。
我々はLaConvNetと呼ばれる最初の完全な言語駆動の畳み込みネットワークを構築し、このネットワークは1つの前方構造における視覚的認識とマルチモーダル推論を統一することができる。
論文 参考訳(メタデータ) (2021-10-17T11:29:13Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z) - Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。
本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-22T21:02:00Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。