論文の概要: Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding
- arxiv url: http://arxiv.org/abs/2601.21948v1
- Date: Thu, 29 Jan 2026 16:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.994796
- Title: Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding
- Title(参考訳): 深部モデルと浅部アライメント:ニューラルデコーディングにおける粒度ミスマッチの発見
- Authors: Yang Du, Siyuan Dai, Yonghao Song, Paul M. Thompson, Haoteng Tang, Liang Zhan,
- Abstract要約: 本稿では,ニューラルネットワークを最終的な出力ではなく,視覚エンコーダの中間表現と整合させる新しいコントラスト学習戦略を提案する。
提案手法は,ニューラル・ビジュアル・デコードにおけるスケーリングの法則を効果的に解き明かし,事前学習された視覚バックボーンの容量でデコード性能を予測可能とした。
- 参考スコア(独自算出の注目度): 8.822848795081693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural visual decoding is a central problem in brain computer interface research, aiming to reconstruct human visual perception and to elucidate the structure of neural representations. However, existing approaches overlook a fundamental granularity mismatch between human and machine vision, where deep vision models emphasize semantic invariance by suppressing local texture information, whereas neural signals preserve an intricate mixture of low-level visual attributes and high-level semantic content. To address this mismatch, we propose Shallow Alignment, a novel contrastive learning strategy that aligns neural signals with intermediate representations of visual encoders rather than their final outputs, thereby striking a better balance between low-level texture details and high-level semantic features. Extensive experiments across multiple benchmarks demonstrate that Shallow Alignment significantly outperforms standard final-layer alignment, with performance gains ranging from 22% to 58% across diverse vision backbones. Notably, our approach effectively unlocks the scaling law in neural visual decoding, enabling decoding performance to scale predictably with the capacity of pre-trained vision backbones. We further conduct systematic empirical analyses to shed light on the mechanisms underlying the observed performance gains.
- Abstract(参考訳): ニューラル・ビジュアル・デコード(Neural visual decoding)は、人間の視覚的知覚を再構築し、神経表現の構造を解明することを目的とした、脳コンピュータインタフェース研究における中心的な問題である。
しかし、既存のアプローチでは、人間の視覚と機械視の基本的な粒度のミスマッチを見落としており、深層視覚モデルは局所的なテクスチャ情報を抑制することによって意味的不変性を強調する一方、ニューラルネットワークは低レベルの視覚特性と高レベルの意味的内容の複雑な混合を保持する。
このミスマッチに対処するために、Shallow Alignmentを提案する。これは、ニューラルネットワークを最終的な出力ではなく、視覚エンコーダの中間表現と整合させ、低レベルのテクスチャの詳細と高レベルのセマンティック特徴とのバランスを良くする、新しいコントラスト学習戦略である。
複数のベンチマークにわたる大規模な実験により、Shallow Alignmentは標準的な最終層アライメントを著しく上回り、様々な視覚バックボーンで22%から58%のパフォーマンス向上が見られた。
特に,本手法は,ニューラル・ビジュアル・デコードにおけるスケーリングの法則を効果的に解き明かし,事前学習された視覚バックボーンの容量でデコード性能を予測可能とした。
さらに、観察された性能向上のメカニズムを隠蔽するために、系統的な経験分析を行う。
関連論文リスト
- Simple Models, Rich Representations: Visual Decoding from Primate Intracortical Neural Signals [0.0]
霊長類の高密度皮質内記録から視覚情報を復号する問題に対処する。
我々は,低分解能遅延再構成と意味的条件付き拡散を組み合わせたモジュラー生成復号パイプラインを開発した。
このフレームワークは、ブレイン・コンピュータ・インタフェースとセマンティック・ニューラル・デコーディングの原則を提供する。
論文 参考訳(メタデータ) (2026-01-16T09:10:31Z) - Uncovering Semantic Selectivity of Latent Groups in Higher Visual Cortex with Mutual Information-Guided Diffusion [19.983291706164923]
ニューラル潜伏部分空間に符号化された視覚的意味属性を可視化し、検証するMIG-Visを提案する。
2つのマカクの下側頭葉(IT)大脳皮質からのマルチセッションニューラルスパイクデータセット上でMIG-Visを検証する。
論文 参考訳(メタデータ) (2025-10-02T16:33:40Z) - The Geometry of Cortical Computation: Manifold Disentanglement and Predictive Dynamics in VCNet [0.0]
本稿では,新しいニューラルネットワークアーキテクチャであるVisual Cortex Network(VCNet)を紹介する。
VCNetは、重要な生物学的メカニズムをエミュレートする幾何学的フレームワークである。
我々は、VCNetがSpots-10で92.1%、光フィールドデータセットで74.4%の最先端の精度を達成したことを示す。
論文 参考訳(メタデータ) (2025-08-05T01:52:42Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Spiking Neural Networks for Frame-based and Event-based Single Object
Localization [26.51843464087218]
スパイクニューラルネットワークは、人工ニューラルネットワークに代わるエネルギー効率の高い代替手段として、多くの可能性を示してきた。
代用勾配降下法を用いて学習した単一物体の局所化に対するスパイクニューラルネットワークアプローチを提案する。
提案手法を類似の人工知能ニューラルネットワークと比較した結果, 精度, 各種汚損対策, エネルギー消費量の低減が得られた。
論文 参考訳(メタデータ) (2022-06-13T22:22:32Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。