論文の概要: Human Eyes Inspired Recurrent Neural Networks are More Robust Against
Adversarial Noises
- arxiv url: http://arxiv.org/abs/2206.07282v1
- Date: Wed, 15 Jun 2022 03:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 06:24:10.056955
- Title: Human Eyes Inspired Recurrent Neural Networks are More Robust Against
Adversarial Noises
- Title(参考訳): 人間の目に触発されたリカレントニューラルネットワークは、敵の騒音に対してよりロバスト
- Authors: Minkyu Choi, Yizhen Zhang, Kuan Han, Xiaokai Wang, and Zhongming Liu
- Abstract要約: 人間の視覚と比較して、畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョンは、敵の雑音に対してより脆弱である。
この違いは、眼が視覚入力をどのようにサンプルし、脳が網膜サンプルを背側および腹側視覚経路を通してどのように処理するかに起因している可能性が高い。
我々は、人間の網膜を模倣する入力サンプリング器、次に見る場所を案内する背側ネットワーク、網膜のサンプルを表す腹側ネットワークを含む、反復的なニューラルネットワークを設計する。
これらのモジュールをひとつにまとめると、モデルはイメージを複数回見て、各見た目で健全な部分に参加し、画像を認識するために時間をかけて表現を蓄積する。
- 参考スコア(独自算出の注目度): 3.8738982761490988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to human vision, computer vision based on convolutional neural
networks (CNN) are more vulnerable to adversarial noises. This difference is
likely attributable to how the eyes sample visual input and how the brain
processes retinal samples through its dorsal and ventral visual pathways, which
are under-explored for computer vision. Inspired by the brain, we design
recurrent neural networks, including an input sampler that mimics the human
retina, a dorsal network that guides where to look next, and a ventral network
that represents the retinal samples. Taking these modules together, the models
learn to take multiple glances at an image, attend to a salient part at each
glance, and accumulate the representation over time to recognize the image. We
test such models for their robustness against a varying level of adversarial
noises with a special focus on the effect of different input sampling
strategies. Our findings suggest that retinal foveation and sampling renders a
model more robust against adversarial noises, and the model may correct itself
from an attack when it is given a longer time to take more glances at an image.
In conclusion, robust visual recognition can benefit from the combined use of
three brain-inspired mechanisms: retinal transformation, attention guided eye
movement, and recurrent processing, as opposed to feedforward-only CNNs.
- Abstract(参考訳): 人間の視覚と比較して、畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョンは、敵の雑音に対してより脆弱である。
この違いは、目の視覚入力のサンプルと、脳が背側と腹側の視覚経路を通して網膜のサンプルをどう処理するかに起因している可能性が高い。
脳にインスパイアされた私たちは、人間の網膜を模倣する入力サンプルラー、次に見る場所を案内する背側ネットワーク、網膜のサンプルを表す腹側ネットワークなど、反復するニューラルネットワークを設計しました。
これらのモジュールをひとつにまとめると、モデルはイメージを複数回見て、各見た目で健全な部分に参加し、画像を認識するために時間をかけて表現を蓄積する。
本研究では, 異なる入力サンプリング戦略の効果に着目し, 様々なレベルの逆方向雑音に対するロバスト性を検証した。
以上の結果から, 網膜のfoveation と sampling は, 逆向きのノイズに対してより頑健なモデルとなり, 画像を見る時間が長くなると, モデルが攻撃から自身を修正できる可能性が示唆された。
結論として、堅牢な視覚認識は、フィードフォワードのみのCNNとは対照的に、網膜変換、注意誘導眼球運動、反復処理の3つの脳誘発メカニズムの併用による恩恵を受けることができる。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Dual Thinking and Perceptual Analysis of Deep Learning Models using Human Adversarial Examples [5.022336433202968]
視覚における双対思考の知覚は、直感的および論理的処理からの推論が異なるイメージを必要とする。
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、敵対的データセットを導入する。
また,人間の視覚の計算モデルとして分類モデルを用いた場合の批判についても検討した。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。