論文の概要: System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics
- arxiv url: http://arxiv.org/abs/2402.12519v2
- Date: Sun, 13 Oct 2024 19:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:31.745230
- Title: System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics
- Title(参考訳): ニューラルシステムのシステム同定:画像を超えてモデリングダイナミクスへ
- Authors: Mai Gamal, Mohamed Rashad, Eman Ehab, Seif Eldawlatly, Mennatullah Siam,
- Abstract要約: 本稿では,ビデオ刺激を用いた視覚野記録について,映像理解モデルの比較に焦点をあてた最初の大規模研究を提案する。
映像理解モデルが視覚野の反応を予測する方法について重要な知見を提供する。
本稿では,最高の映像理解モデル上に構築されたニューラルエンコーディング方式を提案する。
- 参考スコア(独自算出の注目度): 2.3825930751052358
- License:
- Abstract: Extensive literature has drawn comparisons between recordings of biological neurons in the brain and deep neural networks. This comparative analysis aims to advance and interpret deep neural networks and enhance our understanding of biological neural systems. However, previous works did not consider the time aspect and how the encoding of video and dynamics in deep networks relate to the biological neural systems within a large-scale comparison. Towards this end, we propose the first large-scale study focused on comparing video understanding models with respect to the visual cortex recordings using video stimuli. The study encompasses more than two million regression fits, examining image vs. video understanding, convolutional vs. transformer-based and fully vs. self-supervised models. Additionally, we propose a novel neural encoding scheme to better encode biological neural systems. We provide key insights on how video understanding models predict visual cortex responses; showing video understanding better than image understanding models, convolutional models are better in the early-mid visual cortical regions than transformer based ones except for multiscale transformers, and that two-stream models are better than single stream. Furthermore, we propose a novel neural encoding scheme that is built on top of the best performing video understanding models, while incorporating inter-intra region connectivity across the visual cortex. Our neural encoding leverages the encoded dynamics from video stimuli, through utilizing two-stream networks and multiscale transformers, while taking connectivity priors into consideration. Our results show that merging both intra and inter-region connectivity priors increases the encoding performance over each one of them standalone or no connectivity priors. It also shows the necessity for encoding dynamics to fully benefit from such connectivity priors.
- Abstract(参考訳): 広範囲にわたる文献は、脳内の生物学的ニューロンの記録とディープニューラルネットワークの比較を描いている。
この比較分析は、ディープニューラルネットワークを進化させ、解釈し、生物学的ニューラルネットワークの理解を強化することを目的としている。
しかし、以前の研究では、大規模な比較において、ディープネットワークにおけるビデオとダイナミクスの符号化が生体神経系とどのように関係しているかを考慮しなかった。
そこで本研究では,映像刺激を用いた視覚野記録について,映像理解モデルの比較に焦点をあてた最初の大規模研究を提案する。
この研究には200万以上の回帰フィットが含まれており、画像対ビデオ理解、畳み込み対トランスフォーマーベース、完全対自己教師型モデルなどを調べている。
さらに,生体神経系をよりよく符号化するための新しいニューラルエンコーディング手法を提案する。
我々は,映像理解モデルが視覚大脳皮質反応を予測する方法,映像理解モデルよりも映像理解が優れていること,畳み込みモデルはマルチスケールトランスフォーマー以外のトランスフォーマーベースモデルよりも早期の視覚大脳皮質領域の方が優れていること,二つのストリームモデルの方が単一ストリームより優れていること,などの重要な知見を提供する。
さらに、視覚野全体にわたるイントラ領域間の接続性を取り入れつつ、最高の映像理解モデルの上に構築された新しいニューラルエンコーディング方式を提案する。
我々のニューラルエンコーディングは、2ストリームネットワークとマルチスケールトランスフォーマーを利用して、ビデオ刺激から符号化されたダイナミックスを活用する。
以上の結果から,リージョン内接続とリージョン間接続を併用することで,それぞれがスタンドアロンあるいは接続先を持たない場合の符号化性能が向上することが示された。
また、このような接続前の利点を完全に享受するために、ダイナミックスをエンコーディングする必要があることも示している。
関連論文リスト
- Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。
このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文 参考訳(メタデータ) (2024-06-07T08:32:30Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - A Dual-Stream Neural Network Explains the Functional Segregation of
Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。
入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。
バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文 参考訳(メタデータ) (2023-10-20T22:47:40Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。
マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。
視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2022-04-18T11:28:18Z) - Improving Neural Predictivity in the Visual Cortex with Gated Recurrent
Connections [0.0]
我々は,腹側視覚ストリームのユビキタスな特徴である横方向のリカレント接続を考慮したアーキテクチャに焦点を移し,適応的受容場を創出することを目指している。
本研究は,我々のアプローチの堅牢性と活性化の生物学的忠実性を高めるために,特定のデータ拡張技術を用いている。
論文 参考訳(メタデータ) (2022-03-22T17:27:22Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Deep Auto-encoder with Neural Response [8.797970797884023]
ニューラルレスポンス(DAE-NR)を用いたディープオートエンコーダと呼ばれるハイブリッドモデルを提案する。
DAE-NRは、視覚野からの情報をANNに組み込んで、より優れた画像再構成と、生物学的および人工ニューロン間の高い神経表現類似性を実現する。
DAE-NRは, 共同学習によって(画像再構成の性能の向上) 生体ニューロンと人工ニューロンとの表現的類似性の向上が可能であることを実証した。
論文 参考訳(メタデータ) (2021-11-30T11:44:17Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。