論文の概要: AVM: Towards Structure-Preserving Neural Response Modeling in the Visual Cortex Across Stimuli and Individuals
- arxiv url: http://arxiv.org/abs/2512.16948v1
- Date: Wed, 17 Dec 2025 07:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.114864
- Title: AVM: Towards Structure-Preserving Neural Response Modeling in the Visual Cortex Across Stimuli and Individuals
- Title(参考訳): AVM: 刺激と個人間の視覚皮質における構造保存型ニューラルレスポンスモデリングを目指して
- Authors: Qi Xu, Shuai Gong, Xuming Ran, Haihua Luo, Yangfan Hu,
- Abstract要約: 本稿では,条件認識型適応を実現する構造保存フレームワークであるAdaptive Visual Model (AVM)を紹介する。
AVMはVision Transformerベースのエンコーダをフリーズし、一貫した視覚的特徴をキャプチャすると同時に、ニューラルネットワークの変動に対する変調アカウントパスを独立してトレーニングする。
我々は,刺激レベルの変動,オブジェクト間の一般化,データセット間の適応など,AVMを3つの実験条件で評価する。
- 参考スコア(独自算出の注目度): 25.302743154898437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning models have shown strong performance in simulating neural responses, they often fail to clearly separate stable visual encoding from condition-specific adaptation, which limits their ability to generalize across stimuli and individuals. We introduce the Adaptive Visual Model (AVM), a structure-preserving framework that enables condition-aware adaptation through modular subnetworks, without modifying the core representation. AVM keeps a Vision Transformer-based encoder frozen to capture consistent visual features, while independently trained modulation paths account for neural response variations driven by stimulus content and subject identity. We evaluate AVM in three experimental settings, including stimulus-level variation, cross-subject generalization, and cross-dataset adaptation, all of which involve structured changes in inputs and individuals. Across two large-scale mouse V1 datasets, AVM outperforms the state-of-the-art V1T model by approximately 2% in predictive correlation, demonstrating robust generalization, interpretable condition-wise modulation, and high architectural efficiency. Specifically, AVM achieves a 9.1% improvement in explained variance (FEVE) under the cross-dataset adaptation setting. These results suggest that AVM provides a unified framework for adaptive neural modeling across biological and experimental conditions, offering a scalable solution under structural constraints. Its design may inform future approaches to cortical modeling in both neuroscience and biologically inspired AI systems.
- Abstract(参考訳): ディープラーニングモデルは、ニューラルレスポンスをシミュレートする上で、強いパフォーマンスを示す一方で、状態固有の適応から、安定した視覚的エンコーディングを明確に分離することができないことが多い。
本稿では,アダプティブ・ビジュアル・モデル (Adaptive Visual Model, AVM) を紹介する。
AVMは、一貫した視覚的特徴を捉えるために、Vision Transformerベースのエンコーダをフリーズし、独立にトレーニングされた変調パスは、刺激内容と被写体識別によって駆動される神経反応のバリエーションを考慮に入れている。
我々は,刺激レベルの変動,オブジェクト間の一般化,データセット間の適応など,AVMを3つの実験条件で評価した。
2つの大規模なマウスV1データセット全体で、AVMは最先端のV1Tモデルを約2%の予測相関で上回り、堅牢な一般化、解釈可能な条件調整、高いアーキテクチャ効率を実証している。
具体的には、AVMは、クロスデータセット適応設定の下で、説明分散(FEVE)の9.1%の改善を達成する。
これらの結果は、AVMが生物学的および実験的条件をまたいだ適応型ニューラルモデリングのための統一的なフレームワークを提供し、構造的制約の下でスケーラブルなソリューションを提供することを示唆している。
その設計は、神経科学と生物学的にインスパイアされたAIシステムの両方における皮質モデリングへの将来のアプローチを知らせるかもしれない。
関連論文リスト
- EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor [22.35724335601674]
映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
論文 参考訳(メタデータ) (2025-05-06T07:42:24Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Layerwise complexity-matched learning yields an improved model of cortical area V2 [12.861402235256207]
ディープニューラルネットワークは、人間の能力にアプローチするオブジェクト認識のためのエンドツーエンドを訓練した。
我々は,連続する層に独立して機能する自己指導型トレーニング手法を開発した。
本モデルは, 霊長類領域V2における選択性特性と神経活動に適合していることが示唆された。
論文 参考訳(メタデータ) (2023-12-18T18:37:02Z) - Multi-modal Gaussian Process Variational Autoencoders for Neural and
Behavioral Data [0.9622208190558754]
そこで本研究では,時間的に進化する共振子と独立潜光子を個別に同時記録した実験モードのために抽出する非教師付き潜光子変数モデルを提案する。
我々は,ポアソンスパイク数と時間とともにスムーズかつスムーズに回転するMNIST画像からなるシミュレーションマルチモーダルデータに対して,本モデルの有効性を検証した。
マルチモーダルGP-VAEは、モダリティ間の共有および独立の潜伏構造を正確に識別できるだけでなく、保留試験において画像とニューラルレートの両方を適切に再構成できることを示す。
論文 参考訳(メタデータ) (2023-10-04T19:04:55Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。