論文の概要: Foveated Retinotopy Improves Classification and Localization in CNNs
- arxiv url: http://arxiv.org/abs/2402.15480v3
- Date: Sun, 29 Dec 2024 20:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:18.762911
- Title: Foveated Retinotopy Improves Classification and Localization in CNNs
- Title(参考訳): CNNの分類と局在を改善したFoveated Retinotopy
- Authors: Jean-Nicolas Jérémie, Emmanuel Daucé, Laurent U Perrinet,
- Abstract要約: 画像分類タスクにおいて,葉柄付き網膜移植が深層畳み込みニューラルネットワーク(CNN)にどのような効果をもたらすかを示す。
以上の結果から,葉状網膜地図は視覚的物体形状に関する暗黙の知識をコードしていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: From a falcon detecting prey to humans recognizing faces, many species exhibit extraordinary abilities in rapid visual localization and classification. These are made possible by a specialized retinal region called the fovea, which provides high acuity at the center of vision while maintaining lower resolution in the periphery. This distinctive spatial organization, preserved along the early visual pathway through retinotopic mapping, is fundamental to biological vision, yet remains largely unexplored in machine learning. Our study investigates how incorporating foveated retinotopy may benefit deep convolutional neural networks (CNNs) in image classification tasks. By implementing a foveated retinotopic transformation in the input layer of standard ResNet models and re-training them, we maintain comparable classification accuracy while enhancing the network's robustness to scale and rotational perturbations. Although this architectural modification introduces increased sensitivity to fixation point shifts, we demonstrate how this apparent limitation becomes advantageous: variations in classification probabilities across different gaze positions serve as effective indicators for object localization. Our findings suggest that foveated retinotopic mapping encodes implicit knowledge about visual object geometry, offering an efficient solution to the visual search problem - a capability crucial for many living species.
- Abstract(参考訳): 獲物を検知するファルコンから顔を認識する人間まで、多くの種は視覚的局所化と分類において異常な能力を発揮している。
これらはフォベアと呼ばれる特殊な網膜領域によって可能であり、周囲の解像度を低く保ちながら視の中心で高い明度を提供する。
レチノトピックマッピングによる初期の視覚経路に沿って保存されているこの独特の空間的組織は、生物学的ビジョンの基礎であるが、機械学習ではほとんど解明されていない。
本研究は, 画像分類タスクにおいて, 葉状網膜移植が深層畳み込みニューラルネットワーク(CNN)にどのような効果をもたらすかを検討する。
標準ResNetモデルの入力層にフェーベレートされたレチノトピック変換を実装し、それらを再学習することにより、ネットワークのスケールと回転の摂動に対する堅牢性を高めながら、同等の分類精度を維持する。
このアーキテクチャ変更は、固定点シフトに対する感度の向上をもたらすが、この明らかな制限がいかに有利になるかを実証する: 異なる視線位置における分類確率の変化は、オブジェクトの局所化の効果的な指標となる。
以上の結果から,葉柄付き網膜マッピングは視覚オブジェクトの形状に関する暗黙の知識を符号化し,視覚探索問題に対する効率的な解法である,多くの生物種にとって重要な能力をもたらすことが示唆された。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Unleashing the Power of Depth and Pose Estimation Neural Networks by
Designing Compatible Endoscopic Images [12.412060445862842]
内視鏡画像の特性を詳細に解析し、画像とニューラルネットワークの互換性を改善する。
まず,完全な画像情報の代わりに部分的な画像情報を入力するMask Image Modelling (MIM) モジュールを導入する。
第2に、画像とニューラルネットワークの互換性を明確に向上させるために、内視鏡画像を強化する軽量ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T02:19:38Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Increasing the Accuracy of a Neural Network Using Frequency Selective
Mesh-to-Grid Resampling [4.211128681972148]
ニューラルネットワークの入力データの処理にFSMR(Keypoint frequency selective mesh-to-grid resampling)を提案する。
ネットワークアーキテクチャや分類タスクによって、トレーニング中のFSMRの適用は学習プロセスに役立ちます。
ResNet50とOxflower17データセットの分類精度は最大4.31ポイント向上できる。
論文 参考訳(メタデータ) (2022-09-28T21:34:47Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Biologically inspired deep residual networks for computer vision
applications [0.0]
本稿では, 六角形畳み込みをスキップ接続に沿って導入する, 生物学的にインスパイアされた深部ニューラルネットワークを提案する。
提案手法は,バニラResNetアーキテクチャのベースライン画像分類精度を向上させる。
論文 参考訳(メタデータ) (2022-05-05T10:23:43Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Deep Spiking Convolutional Neural Network for Single Object Localization
Based On Deep Continuous Local Learning [0.0]
グレースケール画像における単一物体の局所化のための深部畳み込みスパイクニューラルネットワークを提案する。
Oxford-IIIT-Petで報告された結果は、教師付き学習アプローチによるスパイクニューラルネットワークの活用を検証する。
論文 参考訳(メタデータ) (2021-05-12T12:02:05Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。