論文の概要: Spatial-frequency channels, shape bias, and adversarial robustness
- arxiv url: http://arxiv.org/abs/2309.13190v2
- Date: Sun, 5 Nov 2023 06:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:49:22.019099
- Title: Spatial-frequency channels, shape bias, and adversarial robustness
- Title(参考訳): 空間周波数チャネル, 形状バイアス, 対向ロバスト性
- Authors: Ajay Subramanian, Elena Sizikova, Najib J. Majaj, Denis G. Pelli
- Abstract要約: 人間は、文字や格子と同じ1オクターブ幅のチャネルを使って、自然画像中の物体を認識する。
ヒトとは異なり、ニューラルネットワークのチャネルは非常に広く、ヒトのチャネルの2〜4倍の幅がある。
特定の高周波や低周波の騒音は、ネットワーク性能を損ね、人的性能を損なう。
- 参考スコア(独自算出の注目度): 2.029340702842155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What spatial frequency information do humans and neural networks use to
recognize objects? In neuroscience, critical band masking is an established
tool that can reveal the frequency-selective filters used for object
recognition. Critical band masking measures the sensitivity of recognition
performance to noise added at each spatial frequency. Existing critical band
masking studies show that humans recognize periodic patterns (gratings) and
letters by means of a spatial-frequency filter (or "channel") that has a
frequency bandwidth of one octave (doubling of frequency). Here, we introduce
critical band masking as a task for network-human comparison and test 14 humans
and 76 neural networks on 16-way ImageNet categorization in the presence of
narrowband noise. We find that humans recognize objects in natural images using
the same one-octave-wide channel that they use for letters and gratings, making
it a canonical feature of human object recognition. Unlike humans, the neural
network channel is very broad, 2-4 times wider than the human channel. Thus,
noise at certain high and low frequencies will impair network performance and
spare human performance. Adversarial and augmented-image training are commonly
used to increase network robustness and shape bias. Does this training align
network and human object recognition channels? Three network channel properties
(bandwidth, center frequency, peak noise sensitivity) correlate strongly with
shape bias (51% variance explained) and robustness of adversarially-trained
networks (66% variance explained). Adversarial training increases robustness
but expands the channel bandwidth even further beyond the human bandwidth.
Thus, critical band masking reveals that the network channel is more than twice
as wide as the human channel, and that adversarial training only makes it
worse. Networks with narrower channels might be more robust.
- Abstract(参考訳): 人間とニューラルネットワークは物体を認識するのにどんな空間周波数情報を使うのか?
神経科学において、クリティカルバンドマスキングは、物体認識に使用される周波数選択フィルタを明らかにする確立されたツールである。
臨界帯域マスキングは、空間周波数毎に付加される雑音に対する認識性能の感度を測定する。
既存の臨界帯域マスキング研究では、人間が1オクターブの周波数帯域を持つ空間周波数フィルタ(または「チャネル」)によって周期パターン(格子)と文字を認識することが示されている。
本稿では,ネットワーク・ヒューマン比較のための課題として臨界帯域マスキングを導入し,狭帯域雑音下での16方向イメージネット分類において,14人と76人のニューラルネットワークをテストした。
人間は文字やグレーティングに使用する1オクターブ幅のチャネルを使って自然画像中の物体を認識することがわかり、人間の物体認識の標準的特徴となっている。
ヒトと異なり、ニューラルネットワークチャネルは非常に広く、ヒトチャネルの2-4倍幅がある。
したがって、特定の高周波数と低周波数のノイズはネットワーク性能を損なうし、人間のパフォーマンスを損なう。
adversarial と augmented-image トレーニングは、ネットワークの堅牢性と形状バイアスを高めるために一般的に使用される。
このトレーニングは、ネットワークと人間のオブジェクト認識チャネルを調整するか?
3つのネットワークチャネル特性 (帯域幅, 中心周波数, ピークノイズ感度) は, 形状バイアス (51%分散説明) と逆トレーニングネットワークの堅牢性(66%分散説明) と強く相関する。
対人訓練は堅牢性を高めるが、チャネル帯域幅は人間の帯域幅を超えて拡大する。
したがって、クリティカルバンドマスキングは、ネットワークチャネルが人間のチャネルの2倍以上の幅であり、敵のトレーニングが悪くなるだけであることを示す。
チャネルが狭いネットワークの方が堅牢かもしれない。
関連論文リスト
- A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Testing predictions of representation cost theory with CNNs [5.816527700115096]
我々は、訓練された畳み込みニューラルネットワーク(CNN)が周波数の異なる信号に対して異なる感度を持つことを示す。
これは自然画像の周波数分布の結果であり、その電力の大部分は低中間周波数に集中していることが知られている。
論文 参考訳(メタデータ) (2022-10-03T22:35:43Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Understanding robustness and generalization of artificial neural
networks through Fourier masks [8.94889125739046]
近年の文献では、画像の低周波処理には、優れた一般化特性を持つロバストネットワークが偏っていることが示唆されている。
トレーニングされたネットワークの性能を維持するのに必要な入力周波数を強調した変調マスクを学習するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-16T17:32:00Z) - Universal Adversarial Perturbations Through the Lens of Deep
Steganography: Towards A Fourier Perspective [78.05383266222285]
人間の知覚不能な摂動は、ほとんどの画像のディープニューラルネットワーク(DNN)をだますために生成することができる。
ディープステガノグラフィタスクでは同様の現象が観測されており、デコーダネットワークはわずかに乱れたカバー画像から秘密の画像を取得することができる。
1)攻撃と隠蔽を同時に行うユニバーサル・シークレット・アドバイサル・パーターベーション(USAP)、(2)人間の目では見えないハイパスUAP(HP-UAP)の2つの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:26:39Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Networks with pixels embedding: a method to improve noise resistance in
images classification [6.399560915757414]
画素埋め込み技術を導入することにより,画像分類におけるノイズ耐性ネットワークを提供する。
我々は,手書き桁のmnistデータベース上で,PEを用いたネットワークと略される画素埋め込みを用いてネットワークをテストする。
論文 参考訳(メタデータ) (2020-05-24T07:55:08Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z) - Streaming Networks: Increase Noise Robustness and Filter Diversity via
Hard-wired and Input-induced Sparsity [0.2538209532048866]
近年の研究では、CNNの認識精度が、画像がノイズによって損なわれている場合、大幅に低下することが示されている。
本稿では,Streaming Networksと呼ばれる新しいネットワークアーキテクチャを提案する。
その結果、ハードワイヤとインプットインプットインプットインプットの両方の存在だけで、堅牢なノイズ画像認識が可能であることが示唆された。
論文 参考訳(メタデータ) (2020-03-30T16:58:23Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。