論文の概要: Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models
- arxiv url: http://arxiv.org/abs/2407.10737v1
- Date: Mon, 15 Jul 2024 14:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.769648
- Title: Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models
- Title(参考訳): ファンデーションビジョンモデルを用いた動的視覚シーンのニューロン符号化
- Authors: Rining Wu, Feixiang Zhou, Ziwei Yin, Jian K. Liu,
- Abstract要約: 自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
- 参考スコア(独自算出の注目度): 2.790870674964473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our brains represent the ever-changing environment with neurons in a highly dynamic fashion. The temporal features of visual pixels in dynamic natural scenes are entrapped in the neuronal responses of the retina. It is crucial to establish the intrinsic temporal relationship between visual pixels and neuronal responses. Recent foundation vision models have paved an advanced way of understanding image pixels. Yet, neuronal coding in the brain largely lacks a deep understanding of its alignment with pixels. Most previous studies employ static images or artificial videos derived from static images for emulating more real and complicated stimuli. Despite these simple scenarios effectively help to separate key factors influencing visual coding, complex temporal relationships receive no consideration. To decompose the temporal features of visual coding in natural scenes, here we propose Vi-ST, a spatiotemporal convolutional neural network fed with a self-supervised Vision Transformer (ViT) prior, aimed at unraveling the temporal-based encoding patterns of retinal neuronal populations. The model demonstrates robust predictive performance in generalization tests. Furthermore, through detailed ablation experiments, we demonstrate the significance of each temporal module. Furthermore, we introduce a visual coding evaluation metric designed to integrate temporal considerations and compare the impact of different numbers of neuronal populations on complementary coding. In conclusion, our proposed Vi-ST demonstrates a novel modeling framework for neuronal coding of dynamic visual scenes in the brain, effectively aligning our brain representation of video with neuronal activity. The code is available at https://github.com/wurining/Vi-ST.
- Abstract(参考訳): 私たちの脳は、非常にダイナミックな方法でニューロンが変化し続ける環境を表しています。
動的自然界における視覚画素の時間的特徴は、網膜の神経反応に介在する。
視覚的ピクセルと神経反応の内在的時間的関係を確立することが重要である。
近年の基盤視モデルでは,画像画素の理解の高度化が図られている。
しかし、脳内のニューロンのコーディングは、ピクセルとの整合性についての深い理解を欠いている。
従来の研究では、よりリアルで複雑な刺激をエミュレートするために、静的画像または静的画像から派生した人工ビデオが使用されている。
これらの単純なシナリオは視覚的コーディングに影響を及ぼす重要な要因を効果的に分けるのに役立つが、複雑な時間的関係は考慮されない。
自然界における視覚符号化の時間的特徴を分解するために,視覚変換器 (ViT) を予め導入した時空間畳み込みニューラルネットワークであるVi-STを提案する。
このモデルは、一般化テストにおいて堅牢な予測性能を示す。
さらに, 詳細なアブレーション実験により, 各時相加群の重要性を実証した。
さらに、時間的考察を統合し、異なる数のニューロン集団が相補的コーディングに与える影響を比較するために、視覚的符号化評価指標を導入する。
提案したVi-STは、脳内のダイナミックな視覚シーンのニューラルコーディングのための新しいモデリングフレームワークを実証し、映像の脳表現と神経活動とを効果的に一致させる。
コードはhttps://github.com/wurining/Vi-STで公開されている。
関連論文リスト
- Neural Representations of Dynamic Visual Stimuli [36.04425924379253]
fMRIで測定した脳活動から視運動情報を光学的流れとして予測(あるいは復号化)できることを示す。
動き条件付き映像拡散モデルを用いて静的画像をリアルにアニメーションできることを示す。
この研究は、人間の脳がどのように視覚情報を動的に処理するかを解釈するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-04T17:59:49Z) - Neural 3D decoding for human vision diagnosis [76.41771117405973]
われわれは、AIが2D視覚から視覚的に可視で機能的により包括的な脳信号からデコードされた3D視覚へと進化することで、現在の最先端技術を超えることができることを示す。
本研究では、2D画像で提示された被験者のfMRIデータを入力として、対応する3Dオブジェクト視覚を出力する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Deep Auto-encoder with Neural Response [8.797970797884023]
ニューラルレスポンス(DAE-NR)を用いたディープオートエンコーダと呼ばれるハイブリッドモデルを提案する。
DAE-NRは、視覚野からの情報をANNに組み込んで、より優れた画像再構成と、生物学的および人工ニューロン間の高い神経表現類似性を実現する。
DAE-NRは, 共同学習によって(画像再構成の性能の向上) 生体ニューロンと人工ニューロンとの表現的類似性の向上が可能であることを実証した。
論文 参考訳(メタデータ) (2021-11-30T11:44:17Z) - Drop, Swap, and Generate: A Self-Supervised Approach for Generating
Neural Activity [33.06823702945747]
我々はSwap-VAEと呼ばれる神経活動の不整合表現を学習するための新しい教師なしアプローチを導入する。
このアプローチは、生成モデリングフレームワークとインスタンス固有のアライメント損失を組み合わせたものです。
我々は、行動に関連付けられた関連する潜在次元に沿って、ニューラルネットワークをアンタングルする表現を構築することが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T16:39:43Z) - Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。
われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。
そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-28T18:55:50Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。