論文の概要: Spatial-frequency channels, shape bias, and adversarial robustness
- arxiv url: http://arxiv.org/abs/2309.13190v1
- Date: Fri, 22 Sep 2023 21:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:46:14.873396
- Title: Spatial-frequency channels, shape bias, and adversarial robustness
- Title(参考訳): 空間周波数チャネル, 形状バイアス, 対向ロバスト性
- Authors: Ajay Subramanian, Elena Sizikova, Najib J. Majaj, Denis G. Pelli
- Abstract要約: ヒトは、文字や格子と同じ1オクターブ幅のチャネルを用いて、自然画像中の物体を認識する。
一方、ニューラルネットワークチャネルは、さまざまなアーキテクチャやトレーニング戦略にまたがって、人間のチャネルの2~4倍の幅がある。
- 参考スコア(独自算出の注目度): 2.029340702842155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What spatial frequency information do humans and neural networks use to
recognize objects? In neuroscience, critical band masking is an established
tool that can reveal the frequency-selective filters used for object
recognition. Critical band masking measures the sensitivity of recognition
performance to noise added at each spatial frequency. Existing critical band
masking studies show that humans recognize periodic patterns (gratings) and
letters by means of a spatial-frequency filter (or "channel'') that has a
frequency bandwidth of one octave (doubling of frequency). Here, we introduce
critical band masking as a task for network-human comparison and test 14 humans
and 76 neural networks on 16-way ImageNet categorization in the presence of
narrowband noise. We find that humans recognize objects in natural images using
the same one-octave-wide channel that they use for letters and gratings, making
it a canonical feature of human object recognition. On the other hand, the
neural network channel, across various architectures and training strategies,
is 2-4 times as wide as the human channel. In other words, networks are
vulnerable to high and low frequency noise that does not affect human
performance. Adversarial and augmented-image training are commonly used to
increase network robustness and shape bias. Does this training align network
and human object recognition channels? Three network channel properties
(bandwidth, center frequency, peak noise sensitivity) correlate strongly with
shape bias (53% variance explained) and with robustness of
adversarially-trained networks (74% variance explained). Adversarial training
increases robustness but expands the channel bandwidth even further away from
the human bandwidth. Thus, critical band masking reveals that the network
channel is more than twice as wide as the human channel, and that adversarial
training only increases this difference.
- Abstract(参考訳): 人間とニューラルネットワークは物体を認識するのにどんな空間周波数情報を使うのか?
神経科学において、クリティカルバンドマスキングは、物体認識に使用される周波数選択フィルタを明らかにする確立されたツールである。
臨界帯域マスキングは、空間周波数毎に付加される雑音に対する認識性能の感度を測定する。
既存のクリティカルバンドマスキング研究では、人間が1オクターブの周波数帯域(周波数の倍)を持つ空間周波数フィルタ(または「チャネル」)を用いて周期パターンと文字を認識することが示されている。
本稿では,ネットワーク・ヒューマン比較のための課題として臨界帯域マスキングを導入し,狭帯域雑音下での16方向イメージネット分類において,14人と76人のニューラルネットワークをテストした。
人間は文字やグレーティングに使用する1オクターブ幅のチャネルを使って自然画像中の物体を認識することがわかり、人間の物体認識の標準的特徴となっている。
一方、ニューラルネットワークチャネルは、さまざまなアーキテクチャとトレーニング戦略をまたいで、人間のチャネルの2-4倍幅がある。
言い換えれば、ネットワークは人間のパフォーマンスに影響を与えない高周波数と低周波数のノイズに弱い。
adversarial と augmented-image トレーニングは、ネットワークの堅牢性と形状バイアスを高めるために一般的に使用される。
このトレーニングは、ネットワークと人間のオブジェクト認識チャネルを調整するか?
3つのネットワークチャネル特性 (帯域幅, 中心周波数, ピークノイズ感度) は, 形状バイアス (53%分散説明) と強く相関し, 対向訓練ネットワークの堅牢性 (74%分散説明) と相関する。
対人訓練は堅牢性を高めるが、チャネル帯域幅を人間の帯域幅からさらに遠ざける。
したがって、クリティカルバンドマスキングは、ネットワークチャネルが人間のチャネルの2倍以上の幅であり、敵のトレーニングがこの差を増加させるだけであることを示す。
関連論文リスト
- A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Testing predictions of representation cost theory with CNNs [5.816527700115096]
我々は、訓練された畳み込みニューラルネットワーク(CNN)が周波数の異なる信号に対して異なる感度を持つことを示す。
これは自然画像の周波数分布の結果であり、その電力の大部分は低中間周波数に集中していることが知られている。
論文 参考訳(メタデータ) (2022-10-03T22:35:43Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Understanding robustness and generalization of artificial neural
networks through Fourier masks [8.94889125739046]
近年の文献では、画像の低周波処理には、優れた一般化特性を持つロバストネットワークが偏っていることが示唆されている。
トレーニングされたネットワークの性能を維持するのに必要な入力周波数を強調した変調マスクを学習するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-16T17:32:00Z) - Universal Adversarial Perturbations Through the Lens of Deep
Steganography: Towards A Fourier Perspective [78.05383266222285]
人間の知覚不能な摂動は、ほとんどの画像のディープニューラルネットワーク(DNN)をだますために生成することができる。
ディープステガノグラフィタスクでは同様の現象が観測されており、デコーダネットワークはわずかに乱れたカバー画像から秘密の画像を取得することができる。
1)攻撃と隠蔽を同時に行うユニバーサル・シークレット・アドバイサル・パーターベーション(USAP)、(2)人間の目では見えないハイパスUAP(HP-UAP)の2つの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:26:39Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Networks with pixels embedding: a method to improve noise resistance in
images classification [6.399560915757414]
画素埋め込み技術を導入することにより,画像分類におけるノイズ耐性ネットワークを提供する。
我々は,手書き桁のmnistデータベース上で,PEを用いたネットワークと略される画素埋め込みを用いてネットワークをテストする。
論文 参考訳(メタデータ) (2020-05-24T07:55:08Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z) - Streaming Networks: Increase Noise Robustness and Filter Diversity via
Hard-wired and Input-induced Sparsity [0.2538209532048866]
近年の研究では、CNNの認識精度が、画像がノイズによって損なわれている場合、大幅に低下することが示されている。
本稿では,Streaming Networksと呼ばれる新しいネットワークアーキテクチャを提案する。
その結果、ハードワイヤとインプットインプットインプットインプットの両方の存在だけで、堅牢なノイズ画像認識が可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-30T16:58:23Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。