論文の概要: Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness
- arxiv url: http://arxiv.org/abs/2506.03089v1
- Date: Tue, 03 Jun 2025 17:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.884664
- Title: Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness
- Title(参考訳): ニューロインスパイアされたフロントエンドによる皮質下視の明示的モデリングによるCNNロバストネスの改善
- Authors: Lucas Piper, Arlindo L. Oliveira, Tiago Marques,
- Abstract要約: 物体認識で訓練された畳み込みニューラルネットワーク(CNN)は、高いタスク性能を実現するが、生物学的視覚と比較すると脆弱性を示す。
本稿では,VOneBlockと新しいSubcorticalBlockを組み合わせたハイブリッドCNNの新たなクラスであるEarly Vision Networks(EVNets)を紹介する。
EVNetはより強力な創発的な形状バイアスを示し、ロバスト性評価のベンチマークでベースCNNアーキテクチャを8.5%上回っている。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional neural networks (CNNs) trained on object recognition achieve high task performance but continue to exhibit vulnerability under a range of visual perturbations and out-of-domain images, when compared with biological vision. Prior work has demonstrated that coupling a standard CNN with a front-end block (VOneBlock) that mimics the primate primary visual cortex (V1) can improve overall model robustness. Expanding on this, we introduce Early Vision Networks (EVNets), a new class of hybrid CNNs that combine the VOneBlock with a novel SubcorticalBlock, whose architecture draws from computational models in neuroscience and is parameterized to maximize alignment with subcortical responses reported across multiple experimental studies. Without being optimized to do so, the assembly of the SubcorticalBlock with the VOneBlock improved V1 alignment across most standard V1 benchmarks, and better modeled extra-classical receptive field phenomena. In addition, EVNets exhibit stronger emergent shape bias and overperform the base CNN architecture by 8.5% on an aggregate benchmark of robustness evaluations, including adversarial perturbations, common corruptions, and domain shifts. Finally, we show that EVNets can be further improved when paired with a state-of-the-art data augmentation technique, surpassing the performance of the isolated data augmentation approach by 7.3% on our robustness benchmark. This result reveals complementary benefits between changes in architecture to better mimic biology and training-based machine learning approaches.
- Abstract(参考訳): 物体認識で訓練された畳み込みニューラルネットワーク(CNN)は、高いタスク性能を達成するが、生物学的視覚と比較すると、様々な視覚摂動とドメイン外画像の下で脆弱性を示し続けている。
以前の研究は、標準のCNNと霊長類一次視覚野(V1)を模倣するフロントエンドブロック(VOneBlock)を結合することで、全体のモデルロバスト性を改善することを示した。
そこで我々は,VOneBlockと新しいSubcorticalBlockを組み合わせたハイブリッドCNNの新たなクラスであるEarly Vision Networks(EVNets)を紹介した。
そのように最適化されていないため、VOneBlockとSubcorticalBlockは標準のV1ベンチマークのV1アライメントを改善し、古典的外界現象をモデル化した。
さらにEVNetsは、対向的摂動、共通の腐敗、ドメインシフトを含むロバスト性評価の総合ベンチマークにおいて、より強力な創発的形状バイアスを示し、ベースCNNアーキテクチャを8.5%上回っている。
最後に,最新のデータ拡張技術と組み合わせることでEVNetをさらに改善できることを示し,ロバストネスベンチマークでは7.3%の分離データ拡張手法の性能を上回る結果を得た。
この結果は、生物学を模倣するアーキテクチャの変更と、トレーニングベースの機械学習アプローチの相補的なメリットを明らかにしている。
関連論文リスト
- Enhanced Convolutional Neural Networks for Improved Image Classification [0.40964539027092917]
CIFAR-10は、小規模のマルチクラスデータセットの分類モデルの性能を評価するために広く使用されているベンチマークである。
本稿では,より深い畳み込みブロック,バッチ正規化,ドロップアウト正規化を統合したCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T04:32:25Z) - Explicitly Modeling Pre-Cortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness [1.8434042562191815]
CNNは、一般的な汚職で腐敗した画像の分類に苦慮している。
近年の研究では、霊長類一次視覚野(V1)のいくつかの特徴をシミュレートするCNNフロントエンドブロックを組み込むことで、全体のモデル堅牢性を向上させることが示されている。
我々は、前皮質視覚処理をシミュレートする新しいフロントエンドブロックを組み込んだ、生物学的にインスパイアされたCNNモデルファミリーを2つ導入する。
論文 参考訳(メタデータ) (2024-09-25T11:43:29Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - A precortical module for robust CNNs to light variations [0.0]
哺乳類の低視線経路の簡単な数学的モデルを示し、その重要な要素である網膜、外側原性核(LGN)、一次視覚野(V1)を考慮に入れた。
視覚系の皮質レベルと、画像分類タスクで使用される一般的なCNNの構造との類似性は、入力画像における大域的な光強度とコントラスト変動に関するロバスト性を改善するために、前皮質神経回路にインスパイアされた追加の予備的畳み込みモジュールの導入を示唆している。
我々は、MNIST、FashionMNIST、SVHNといった人気データベース上で仮説を検証し、これらの変動に関してより堅牢なCNNを得る。
論文 参考訳(メタデータ) (2022-02-15T14:18:40Z) - Neural Architecture Dilation for Adversarial Robustness [56.18555072877193]
畳み込みニューラルネットワークの欠点は、敵の攻撃に弱いことである。
本稿では, 良好な精度を有する背骨CNNの対角的堅牢性を向上させることを目的とする。
最小限の計算オーバーヘッドの下では、拡張アーキテクチャはバックボーンCNNの標準的な性能と親和性が期待できる。
論文 参考訳(メタデータ) (2021-08-16T03:58:00Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。