論文の概要: A trainable monogenic ConvNet layer robust in front of large contrast
changes in image classification
- arxiv url: http://arxiv.org/abs/2109.06926v1
- Date: Tue, 14 Sep 2021 18:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:18:54.280215
- Title: A trainable monogenic ConvNet layer robust in front of large contrast
changes in image classification
- Title(参考訳): 画像分類における大きなコントラスト変化の前で頑健なトレーニング可能なモノジェニックConvNet層
- Authors: E. Ulises Moya-S\'anchez, Sebasti\'a Xambo-Descamps, Abraham
S\'anchez, Sebasti\'an Salazar-Colores and Ulises Cort\'es
- Abstract要約: 低レベルの幾何学的特徴を検知するバイオインスパイアされた新しいエントリ層M6を提案する。
我々はM6と従来の畳み込み層(C)と決定論的四元数局所位相層(Q9)を比較した。
数値的な結果から、M6のモデルが最も頑丈であることが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (ConvNets) at present achieve remarkable
performance in image classification tasks. However, current ConvNets cannot
guarantee the capabilities of the mammalian visual systems such as invariance
to contrast and illumination changes. Some ideas to overcome the illumination
and contrast variations usually have to be tuned manually and tend to fail when
tested with other types of data degradation. In this context, we present a new
bio-inspired {entry} layer, M6, which detects low-level geometric features
(lines, edges, and orientations) which are similar to patterns detected by the
V1 visual cortex. This new trainable layer is capable of coping with image
classification even with large contrast variations. The explanation for this
behavior is the monogenic signal geometry, which represents each pixel value in
a 3D space using quaternions, a fact that confers a degree of explainability to
the networks. We compare M6 with a conventional convolutional layer (C) and a
deterministic quaternion local phase layer (Q9). The experimental setup {is
designed to evaluate the robustness} of our M6 enriched ConvNet model and
includes three architectures, four datasets, three types of contrast
degradation (including non-uniform haze degradations). The numerical results
reveal that the models with M6 are the most robust in front of any kind of
contrast variations. This amounts to a significant enhancement of the C models,
which usually have reasonably good performance only when the same training and
test degradation are used, except for the case of maximum degradation.
Moreover, the Structural Similarity Index Measure (SSIM) is used to analyze and
explain the robustness effect of the M6 feature maps under any kind of contrast
degradations.
- Abstract(参考訳): 畳み込みニューラルネットワーク(ConvNet)は現在,画像分類タスクにおいて顕著な性能を発揮する。
しかし、現在のConvNetsは、コントラストや照明の変化に対する差異のような哺乳類の視覚システムの能力を保証できない。
照明やコントラストのバリエーションを克服するいくつかのアイデアは、通常は手動で調整しなければならず、他のタイプのデータ劣化テストで失敗する傾向がある。
この文脈では, v1視覚野で検出されたパターンに類似した低レベルな幾何学的特徴(線, エッジ, 方向)を検出する, 新しいバイオインスパイア{entry}層であるm6を提案する。
この新しいトレーニング可能なレイヤは、コントラストのバリエーションが大きい場合でも、画像の分類に対処できる。
この振る舞いの説明は、四元数を用いて3次元空間の各ピクセル値を表す一元的信号幾何(英語版)であり、ネットワークに説明可能性の度合いを与える。
m6を従来の畳み込み層(c)と決定論的四元数局所相層(q9)と比較する。
実験的なセットアップ {is designed to evaluation the robustness} of our m6 enriched convnet model には、3つのアーキテクチャ、4つのデータセット、3種類のコントラスト劣化(一様ではないhaze分解を含む)が含まれています。
数値的な結果から、m6 を持つモデルが最も頑健であることが判明した。
これはCモデルの大幅な向上であり、通常、最大劣化の場合を除いて、同じトレーニングとテスト劣化を使用する場合にのみ、合理的に優れた性能を持つ。
さらに、構造類似度指数測定(SSIM)を用いて、M6特徴写像の任意のコントラスト劣化下でのロバスト性効果を分析し、説明する。
関連論文リスト
- Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Revisiting Sparse Convolutional Model for Visual Recognition [40.726494290922204]
本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
論文 参考訳(メタデータ) (2022-10-24T04:29:21Z) - Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering
of Neural Features [17.920305227880245]
1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考察する。
提案手法は,対象カテゴリを立方体メッシュとして表現し,各メッシュにおける神経機能アクティベーションの生成モデルを学習する。
実験では,先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上した。
論文 参考訳(メタデータ) (2022-09-12T21:31:36Z) - Unsupervised Industrial Anomaly Detection via Pattern Generative and Contrastive Networks [6.393288885927437]
本稿では,視覚変換器を用いた教師なし異常検出ネットワークを提案する。
階層的なタスク学習と人間の経験を利用して、その解釈可能性を高めます。
従来の最先端手法を超越した99.8%のAUCを実現した。
論文 参考訳(メタデータ) (2022-07-20T10:09:53Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Effects of Degradations on Deep Neural Network Architectures [18.79337509555511]
ディープ畳み込みニューラルネットワーク(CNN)は、大規模画像分類の最近の進歩に影響を与えている。
劣化信号(ノイズ)の存在下でのそのようなネットワークの挙動は、ほとんど探索されていない。
本稿では,最も一般的な6つの画像劣化モデルに基づいて,画像分類のための6つの深層アーキテクチャの性能解析を行った。
論文 参考訳(メタデータ) (2018-07-26T13:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。