Fugu-MT 論文翻訳(概要): System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics

論文の概要: System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics

arxiv url: http://arxiv.org/abs/2402.12519v1
Date: Mon, 19 Feb 2024 20:29:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 18:10:41.335760
Title: System Identification of Neural Systems: Going Beyond Images to Modelling Dynamics
Title（参考訳）: ニューラルシステムのシステム同定:画像を超えてモデリングダイナミクスへ
Authors: Mai Gamal, Mohamed Rashad, Eman Ehab, Seif Eldawlatly, and Mennatullah Siam
Abstract要約: システム識別は画像と映像理解モデルとの差別化において一定のレベルに到達できることを示す。映像理解モデルが視覚野の反応を予測する方法について重要な知見を提供する。
参考スコア（独自算出の注目度）: 2.3825930751052358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vast literature has compared the recordings of biological neurons in the brain to deep neural networks. The ultimate goal is to interpret deep networks or to better understand and encode biological neural systems. Recently, there has been a debate on whether system identification is possible and how much it can tell us about the brain computation. System identification recognizes whether one model is more valid to represent the brain computation over another. Nonetheless, previous work did not consider the time aspect and how video and dynamics (e.g., motion) modelling in deep networks relate to these biological neural systems within a large-scale comparison. Towards this end, we propose a system identification study focused on comparing single image vs. video understanding models with respect to the visual cortex recordings. Our study encompasses two sets of experiments; a real environment setup and a simulated environment setup. The study also encompasses more than 30 models and, unlike prior works, we focus on convolutional vs. transformer-based, single vs. two-stream, and fully vs. self-supervised video understanding models. The goal is to capture a greater variety of architectures that model dynamics. As such, this signifies the first large-scale study of video understanding models from a neuroscience perspective. Our results in the simulated experiments, show that system identification can be attained to a certain level in differentiating image vs. video understanding models. Moreover, we provide key insights on how video understanding models predict visual cortex responses; showing video understanding better than image understanding models, convolutional models are better in the early-mid regions than transformer based except for multiscale transformers that are still good in predicting these regions, and that two-stream models are better than single stream.
Abstract（参考訳）: 膨大な文献が、脳の生物学的ニューロンの記録とディープニューラルネットワークを比較している。究極の目標は、ディープネットワークの解釈や、生物学的ニューラルネットワークの理解とエンコードを改善することである。近年,システム同定が可能であるか,脳の計算にどの程度の価値があるのかが議論されている。システム同定は、あるモデルが別のモデルよりも脳の計算を表現できるかどうかを認識する。それにもかかわらず、以前の研究は、時間的側面や、深層ネットワークにおけるビデオと動力学的モデリング(例えば、運動)が、大規模な比較においてこれらの生物学的神経系とどのように関係しているかを考慮しなかった。そこで本研究では,視覚野記録に対する単一画像と映像理解モデルの比較に焦点を当てたシステム同定研究を提案する。本研究は,実環境設定とシミュレーション環境設定の2つの実験を包含する。この研究はまた30以上のモデルを含んでおり、以前の研究とは異なり、畳み込み対トランスフォーマー、シングル対2ストリーム、完全対自己教師付きビデオ理解モデルに焦点を当てている。目標は、ダイナミクスをモデル化するより多様なアーキテクチャをキャプチャすることだ。このことは、神経科学の観点からビデオ理解モデルに関する最初の大規模研究を意味する。シミュレーション実験の結果,画像の微分と映像理解モデルにおいて,システム同定を一定のレベルまで達成できることが判明した。さらに,映像理解モデルが視覚野応答を予測する方法に関する重要な知見を提供する。画像理解モデルよりも映像理解が優れていること,畳み込みモデルがトランスフォーマベースよりも早い段階ではトランスフォーマベースより優れていること,そして2つのストリームモデルが単一ストリームよりも優れていること,などが挙げられる。

関連論文リスト

A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文参考訳（メタデータ） (2025-07-24T05:29:37Z)
DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding [82.91021399231184]
既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。そこで我々は,fMRI信号から映像をデコードするための,脳にインスパイアされた新しいフレームワークであるDecoFuseを提案する。まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
論文参考訳（メタデータ） (2025-04-01T05:28:37Z)
On the universality of neural encodings in CNNs [5.064404027153094]
学習された固有ベクトルは、VGG型ネットワークの様々な層に対して、異なる自然画像データセットにまたがって普遍的であることを示す。彼らは、より基本的なレベルで、トランスファーラーニングの成功を説明する。
論文参考訳（メタデータ） (2024-09-28T21:30:25Z)
Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文参考訳（メタデータ） (2024-06-07T08:32:30Z)
Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-18T18:01:01Z)
A Dual-Stream Neural Network Explains the Functional Segregation of Dorsal and Ventral Visual Pathways in Human Brains [8.24969449883056]
我々は人間の目と脳にインスパイアされたデュアルストリーム視覚モデルを開発する。入力レベルでは、モデルは2つの相補的な視覚パターンをサンプリングする。バックエンドでは、モデルが分離された入力パターンを畳み込みニューラルネットワークの2つのブランチを通して処理する。
論文参考訳（メタデータ） (2023-10-20T22:47:40Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
Visio-Linguistic Brain Encoding [3.944020612420711]
脳のエンコーディングにおける画像変換器とマルチモーダル変換器の有効性を体系的に検討した。マルチモーダルトランスであるVisualBERTは,従来提案されていたシングルモードCNNよりも大幅に優れていた。視覚言語モデルの優位性は、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。
論文参考訳（メタデータ） (2022-04-18T11:28:18Z)
Improving Neural Predictivity in the Visual Cortex with Gated Recurrent Connections [0.0]
我々は,腹側視覚ストリームのユビキタスな特徴である横方向のリカレント接続を考慮したアーキテクチャに焦点を移し,適応的受容場を創出することを目指している。本研究は,我々のアプローチの堅牢性と活性化の生物学的忠実性を高めるために,特定のデータ拡張技術を用いている。
論文参考訳（メタデータ） (2022-03-22T17:27:22Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Deep Auto-encoder with Neural Response [8.797970797884023]
ニューラルレスポンス(DAE-NR)を用いたディープオートエンコーダと呼ばれるハイブリッドモデルを提案する。 DAE-NRは、視覚野からの情報をANNに組み込んで、より優れた画像再構成と、生物学的および人工ニューロン間の高い神経表現類似性を実現する。 DAE-NRは, 共同学習によって(画像再構成の性能の向上) 生体ニューロンと人工ニューロンとの表現的類似性の向上が可能であることを実証した。
論文参考訳（メタデータ） (2021-11-30T11:44:17Z)
Neural Human Video Rendering by Learning Dynamic Textures and Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文参考訳（メタデータ） (2020-01-14T18:06:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。