Fugu-MT 論文翻訳(概要): Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models

論文の概要: Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models

arxiv url: http://arxiv.org/abs/2407.10737v1
Date: Mon, 15 Jul 2024 14:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:01:44.769648
Title: Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models
Title（参考訳）: ファンデーションビジョンモデルを用いた動的視覚シーンのニューロン符号化
Authors: Rining Wu, Feixiang Zhou, Ziwei Yin, Jian K. Liu,
Abstract要約: 自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
参考スコア（独自算出の注目度）: 2.790870674964473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Our brains represent the ever-changing environment with neurons in a highly dynamic fashion. The temporal features of visual pixels in dynamic natural scenes are entrapped in the neuronal responses of the retina. It is crucial to establish the intrinsic temporal relationship between visual pixels and neuronal responses. Recent foundation vision models have paved an advanced way of understanding image pixels. Yet, neuronal coding in the brain largely lacks a deep understanding of its alignment with pixels. Most previous studies employ static images or artificial videos derived from static images for emulating more real and complicated stimuli. Despite these simple scenarios effectively help to separate key factors influencing visual coding, complex temporal relationships receive no consideration. To decompose the temporal features of visual coding in natural scenes, here we propose Vi-ST, a spatiotemporal convolutional neural network fed with a self-supervised Vision Transformer (ViT) prior, aimed at unraveling the temporal-based encoding patterns of retinal neuronal populations. The model demonstrates robust predictive performance in generalization tests. Furthermore, through detailed ablation experiments, we demonstrate the significance of each temporal module. Furthermore, we introduce a visual coding evaluation metric designed to integrate temporal considerations and compare the impact of different numbers of neuronal populations on complementary coding. In conclusion, our proposed Vi-ST demonstrates a novel modeling framework for neuronal coding of dynamic visual scenes in the brain, effectively aligning our brain representation of video with neuronal activity. The code is available at https://github.com/wurining/Vi-ST.
Abstract（参考訳）: 私たちの脳は、非常にダイナミックな方法でニューロンが変化し続ける環境を表しています。動的自然界における視覚画素の時間的特徴は、網膜の神経反応に介在する。視覚的ピクセルと神経反応の内在的時間的関係を確立することが重要である。近年の基盤視モデルでは,画像画素の理解の高度化が図られている。しかし、脳内のニューロンのコーディングは、ピクセルとの整合性についての深い理解を欠いている。従来の研究では、よりリアルで複雑な刺激をエミュレートするために、静的画像または静的画像から派生した人工ビデオが使用されている。これらの単純なシナリオは視覚的コーディングに影響を及ぼす重要な要因を効果的に分けるのに役立つが、複雑な時間的関係は考慮されない。自然界における視覚符号化の時間的特徴を分解するために,視覚変換器 (ViT) を予め導入した時空間畳み込みニューラルネットワークであるVi-STを提案する。このモデルは、一般化テストにおいて堅牢な予測性能を示す。さらに, 詳細なアブレーション実験により, 各時相加群の重要性を実証した。さらに、時間的考察を統合し、異なる数のニューロン集団が相補的コーディングに与える影響を比較するために、視覚的符号化評価指標を導入する。提案したVi-STは、脳内のダイナミックな視覚シーンのニューラルコーディングのための新しいモデリングフレームワークを実証し、映像の脳表現と神経活動とを効果的に一致させる。コードはhttps://github.com/wurining/Vi-STで公開されている。

関連論文リスト

Decoding Visual Experience and Mapping Semantics through Whole-Brain Analysis Using fMRI Foundation Models [10.615012396285337]
我々は脳全体の活性化マップを組み込むことで視覚過程の理解を高めるアルゴリズムを開発した。まず,視覚処理を復号化するための最先端手法と比較し,予測意味精度を43%向上させた。
論文参考訳（メタデータ） (2024-11-11T16:51:17Z)
Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方において、ニューロン間の'結合'が競合学習の形式につながることは長年知られている。完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、推論など、幅広いタスクに性能改善をもたらすことを示す。
論文参考訳（メタデータ） (2024-10-17T17:47:54Z)
Time-Dependent VAE for Building Latent Representations from Visual Neural Activity with Complex Dynamics [25.454851828755054]
TiDeSPL-VAEは複雑な視覚神経活動を効果的に分析し、自然な方法で時間的関係をモデル化することができる。結果から,本モデルは自然主義的なシーン/ムーブメントにおいて最高の復号性能を得るだけでなく,明示的なニューラルダイナミクスを抽出することがわかった。
論文参考訳（メタデータ） (2024-08-15T03:27:23Z)
Reanimating Images using Neural Representations of Dynamic Stimuli [36.04425924379253]
脳NRDS(Brain-Neural Representations of Dynamic Stimuli)は、動的視覚シーンにおける脳が空間的・時間的情報をどのように表現するかを理解する。動的視覚刺激に対する人間の反応をより深く理解するためにfMRI脳活動を利用する。脳画像とビデオ拡散モデルを組み合わせることで、より堅牢で生物学的にインスパイアされたコンピュータビジョンシステムの開発の可能性を示す。
論文参考訳（メタデータ） (2024-06-04T17:59:49Z)
Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。 VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文参考訳（メタデータ） (2023-09-26T15:38:26Z)
Computing a human-like reaction time metric from stable recurrent vision models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文参考訳（メタデータ） (2023-06-20T14:56:02Z)
Long-Range Feedback Spiking Network Captures Dynamic and Static Representations of the Visual Cortex under Movie Stimuli [25.454851828755054]
視覚野が、文脈に富む情報を含む自然の映画刺激をどのように表現するかについては、限られた知見がある。本研究では、大脳皮質領域間のトップダウン接続を模倣した長距離フィードバックスパイクネットワーク(LoRaFB-SNet)を提案する。本稿では,マウスのモデル表現と視覚皮質表現の類似性を測定するために,時系列表現類似性分析(TSRSA)を提案する。
論文参考訳（メタデータ） (2023-06-02T08:25:58Z)
Adapting Brain-Like Neural Networks for Modeling Cortical Visual Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-09-27T17:33:19Z)
A domain adaptive deep learning solution for scanpath prediction of paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文参考訳（メタデータ） (2022-09-22T22:27:08Z)
Prune and distill: similar reformatting of image information along rat visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文参考訳（メタデータ） (2022-05-27T08:06:40Z)
Fast Training of Neural Lumigraph Representations using Meta Learning [109.92233234681319]
我々は、リアルタイムにレンダリングできる高品質な表現を素早く学習することを目的として、新しいニューラルレンダリングアプローチを開発した。われわれのアプローチであるMetaNLR++は、ニューラル形状表現と2次元CNNに基づく画像特徴抽出、集約、再投影のユニークな組み合わせを用いてこれを実現する。そこで本研究では,MetaNLR++が類似あるいはより優れたフォトリアリスティックなノベルビュー合成を実現し,競合する手法が要求される時間のほんの少しの時間で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-28T18:55:50Z)
Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。 ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-12-31T18:55:38Z)
Continuous Emotion Recognition with Spatiotemporal Convolutional Neural Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文参考訳（メタデータ） (2020-11-18T13:42:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。