論文の概要: Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises
- arxiv url: http://arxiv.org/abs/2206.07282v2
- Date: Thu, 26 Sep 2024 18:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:46:48.493681
- Title: Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises
- Title(参考訳): 人間の目に触発されたリカレントニューラルネットワークは、敵の騒音に対してよりロバストである
- Authors: Minkyu Choi, Yizhen Zhang, Kuan Han, Xiaokai Wang, Zhongming Liu,
- Abstract要約: 我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
- 参考スコア(独自算出の注目度): 7.689542442882423
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans actively observe the visual surroundings by focusing on salient objects and ignoring trivial details. However, computer vision models based on convolutional neural networks (CNN) often analyze visual input all at once through a single feed-forward pass. In this study, we designed a dual-stream vision model inspired by the human brain. This model features retina-like input layers and includes two streams: one determining the next point of focus (the fixation), while the other interprets the visuals surrounding the fixation. Trained on image recognition, this model examines an image through a sequence of fixations, each time focusing on different parts, thereby progressively building a representation of the image. We evaluated this model against various benchmarks in terms of object recognition, gaze behavior and adversarial robustness. Our findings suggest that the model can attend and gaze in ways similar to humans without being explicitly trained to mimic human attention, and that the model can enhance robustness against adversarial attacks due to its retinal sampling and recurrent processing. In particular, the model can correct its perceptual errors by taking more glances, setting itself apart from all feed-forward-only models. In conclusion, the interactions of retinal sampling, eye movement, and recurrent dynamics are important to human-like visual exploration and inference.
- Abstract(参考訳): 人間は、静かな物体に焦点をあて、自明な詳細を無視して、視覚的な環境を積極的に観察する。
しかし、畳み込みニューラルネットワーク(CNN)に基づくコンピュータビジョンモデルは、単一のフィードフォワードパスを通じて、視覚的な入力を一度に分析することが多い。
本研究では、人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルは、画像認識に基づいて、様々な部分に焦点を当てる度に、一連の固定を通して画像を検査し、画像の表現を段階的に構築する。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
以上の結果から,本モデルは人間の注意を模倣する訓練を受けずに,人間と類似した形で観察し,網膜サンプリングや反復処理による敵の攻撃に対する堅牢性を高めることが可能であることが示唆された。
特に、このモデルは、フィードフォワードのみのモデルとは切り離して、よりよく見ることによって、知覚上のエラーを修正することができる。
結論として, 網膜サンプリング, 眼球運動, リカレントダイナミクスの相互作用は, 人間の視覚的探索や推論において重要である。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Dual Thinking and Perceptual Analysis of Deep Learning Models using Human Adversarial Examples [5.022336433202968]
視覚における双対思考の知覚は、直感的および論理的処理からの推論が異なるイメージを必要とする。
我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、敵対的データセットを導入する。
また,人間の視覚の計算モデルとして分類モデルを用いた場合の批判についても検討した。
論文 参考訳(メタデータ) (2024-06-11T05:50:34Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。