論文の概要: pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System
- arxiv url: http://arxiv.org/abs/2409.13622v1
- Date: Fri, 20 Sep 2024 16:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:19:44.773606
- Title: pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System
- Title(参考訳): pAE:ヒト視覚系におけるフィードフォワードとフィードバックストリームの統合による側方遺伝子核のモデリングのための効率的なオートエンコーダアーキテクチャ
- Authors: Moslem Gorji, Amin Ranjbar, Mohammad Bagher Menhaj,
- Abstract要約: 本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual cortex is a vital part of the brain, responsible for hierarchically identifying objects. Understanding the role of the lateral geniculate nucleus (LGN) as a prior region of the visual cortex is crucial when processing visual information in both bottom-up and top-down pathways. When visual stimuli reach the retina, they are transmitted to the LGN area for initial processing before being sent to the visual cortex for further processing. In this study, we introduce a deep convolutional model that closely approximates human visual information processing. We aim to approximate the function for the LGN area using a trained shallow convolutional model which is designed based on a pruned autoencoder (pAE) architecture. The pAE model attempts to integrate feed forward and feedback streams from/to the V1 area into the problem. This modeling framework encompasses both temporal and non-temporal data feeding modes of the visual stimuli dataset containing natural images captured by a fixed camera in consecutive frames, featuring two categories: images with animals (in motion), and images without animals. Subsequently, we compare the results of our proposed deep-tuned model with wavelet filter bank methods employing Gabor and biorthogonal wavelet functions. Our experiments reveal that the proposed method based on the deep-tuned model not only achieves results with high similarity in comparison with human benchmarks but also performs significantly better than other models. The pAE model achieves the final 99.26% prediction performance and demonstrates a notable improvement of around 28% over human results in the temporal mode.
- Abstract(参考訳): 視覚野は脳の不可欠な部分であり、階層的に物体を識別する役割を担っている。
ボトムアップおよびトップダウン経路の両方で視覚情報を処理する際には、視覚野の前野としての外側原核(LGN)の役割を理解することが重要である。
視覚刺激が網膜に達すると、初期処理のためにLGN領域に伝達され、さらに処理するために視覚野に送られる。
本研究では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
我々は,pAEアーキテクチャに基づいて設計した浅層畳み込みモデルを用いて,LGN領域の関数を近似することを目的とする。
pAEモデルは、V1領域からのフィードフォワードとフィードバックストリームを問題に統合しようと試みている。
このモデリングフレームワークは、固定カメラが連続的に捉えた自然な画像を含む視覚刺激データセットの時間的および非時間的データ供給モードと、動物(動作中)の画像と動物のない画像の2つのカテゴリを含む。
次に,提案モデルとGabor およびbiorthogonal wavelet 関数を用いたウェーブレットフィルタバンク法を比較した。
実験の結果,提案手法は人体ベンチマークと高い類似性を持つ結果を得るだけでなく,他のモデルよりも優れた性能を示すことがわかった。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Top-down inference in an early visual cortex inspired hierarchical
Variational Autoencoder [0.0]
我々は変分オートエンコーダの進歩を利用して、自然画像に基づいて訓練された疎い符号化階層型VAEを用いて、初期視覚野を調査する。
一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。
生成モデルを用いた2つの計算のシグネチャに対して,ニューロサイエンスに着想を得た認識モデルの選択が重要であることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:21:58Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z) - A Deep Drift-Diffusion Model for Image Aesthetic Score Distribution
Prediction [68.76594695163386]
画像から美的スコアの分布を予測するために,心理学者から着想を得たディープドリフト拡散モデルを提案する。
DDDモデルは、評価結果の伝統的なモデリングではなく、美的知覚の心理的プロセスを記述することができる。
私たちの新しいDDDモデルはシンプルだが効率的であり、美的スコア分布予測における最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-15T11:01:46Z) - Self-Supervised Learning of a Biologically-Inspired Visual Texture Model [6.931125029302013]
低次元特徴空間における視覚的テクスチャを表現するモデルを開発する。
霊長類視覚野のアーキテクチャにインスパイアされたモデルは、指向性線形フィルタの第1段階を使用する。
学習モデルは,前訓練した深部CNNに比べて,霊長類V2で記録された神経集団のテクスチャ応答に強い類似性を示す。
論文 参考訳(メタデータ) (2020-06-30T17:12:09Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z) - A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an
FPGA Implementation [1.2387676601792899]
本稿では, プロトオブジェクトの概念に基づくニューロモルフィック, ボトムアップ, ダイナミックビジュアル・サリエンシ・モデルを提案する。
このモデルは、一般的に使用されるビデオデータセット上で人間の目の固定を予測する際に、最先端のダイナミック・ビジュアル・サリエンシ・モデルより優れている。
我々は、Opal Kelly 7350 Kintex-7ボード上で、フィールドプログラマブルゲートアレイによるモデルの実装を紹介する。
論文 参考訳(メタデータ) (2020-02-27T03:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。