論文の概要: Convolution goes higher-order: a biologically inspired mechanism empowers image classification
- arxiv url: http://arxiv.org/abs/2412.06740v1
- Date: Mon, 09 Dec 2024 18:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:16.375605
- Title: Convolution goes higher-order: a biologically inspired mechanism empowers image classification
- Title(参考訳): 生物学的にインスパイアされたメカニズムによって画像の分類が強化される
- Authors: Simone Azeglio, Olivier Marre, Peter Neri, Ulisse Ferrari,
- Abstract要約: 本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
- 参考スコア(独自算出の注目度): 0.8999666725996975
- License:
- Abstract: We propose a novel approach to image classification inspired by complex nonlinear biological visual processing, whereby classical convolutional neural networks (CNNs) are equipped with learnable higher-order convolutions. Our model incorporates a Volterra-like expansion of the convolution operator, capturing multiplicative interactions akin to those observed in early and advanced stages of biological visual processing. We evaluated this approach on synthetic datasets by measuring sensitivity to testing higher-order correlations and performance in standard benchmarks (MNIST, FashionMNIST, CIFAR10, CIFAR100 and Imagenette). Our architecture outperforms traditional CNN baselines, and achieves optimal performance with expansions up to 3rd/4th order, aligning remarkably well with the distribution of pixel intensities in natural images. Through systematic perturbation analysis, we validate this alignment by isolating the contributions of specific image statistics to model performance, demonstrating how different orders of convolution process distinct aspects of visual information. Furthermore, Representational Similarity Analysis reveals distinct geometries across network layers, indicating qualitatively different modes of visual information processing. Our work bridges neuroscience and deep learning, offering a path towards more effective, biologically inspired computer vision models. It provides insights into visual information processing and lays the groundwork for neural networks that better capture complex visual patterns, particularly in resource-constrained scenarios.
- Abstract(参考訳): 本稿では, 複雑な非線形視覚処理にインスパイアされた画像分類手法を提案し, 古典的畳み込みニューラルネットワーク(CNN)に高次畳み込みを学習可能とする手法を提案する。
我々のモデルでは、Volterraのような畳み込み演算子の展開が組み込まれており、生体視覚処理の初期段階で観察されたものと類似した乗法的相互作用を捉えている。
我々は, 標準ベンチマーク(MNIST, FashionMNIST, CIFAR10, CIFAR100, Imagenette)における高次相関と性能の感度を測定することで, 合成データセットに対するこのアプローチを評価した。
我々のアーキテクチャは従来のCNNベースラインよりも優れており、自然画像中の画素強度の分布と極めてよく一致し、3位/4位まで拡張することで最適な性能を実現している。
組織的な摂動解析を通じて、特定の画像統計量の寄与をモデル性能に分離し、コンボリューションの異なる順序が視覚情報の異なる側面をどのように処理するかを実証することにより、このアライメントを検証する。
さらに、Representational similarity Analysisは、ネットワーク層にまたがる異なるジオメトリを明らかにし、視覚情報処理の質的に異なるモードを示す。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
視覚情報処理に関する洞察を提供し、特にリソース制約のあるシナリオにおいて、複雑な視覚パターンをよりよく捉えるニューラルネットワークの基盤となる。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Neural Echos: Depthwise Convolutional Filters Replicate Biological
Receptive Fields [56.69755544814834]
哺乳類網膜で観察される生体受容野を,深部核が効果的に複製していることを示す証拠を提示する。
生体受容の分野からインスピレーションを得る手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:06:22Z) - Convolutional Neural Generative Coding: Scaling Predictive Coding to
Natural Images [79.07468367923619]
畳み込み型神経生成符号化(Conv-NGC)を開発した。
我々は、潜伏状態マップを段階的に洗練する柔軟な神経生物学的動機付けアルゴリズムを実装した。
本研究は,脳にインスパイアされたニューラル・システムによる再建と画像復調の課題に対する効果について検討する。
論文 参考訳(メタデータ) (2022-11-22T06:42:41Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - Kernelized dense layers for facial expression recognition [10.98068123467568]
本稿では,従来の線形関係ではなく,高次特徴相互作用をキャプチャするカーネル化Dense Layer (KDL)を提案する。
本モデルでは,最先端のアプローチに関して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-22T21:02:00Z) - Neural encoding and interpretation for high-level visual cortices based
on fMRI using image caption features [14.038605815510145]
本研究では、画像キャプション(IC)タスクと、高レベルの視覚皮質のボクセルを符号化するためのIC特徴に基づく視覚符号化モデルを提案する。
論文 参考訳(メタデータ) (2020-03-26T08:47:21Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。