論文の概要: A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding
- arxiv url: http://arxiv.org/abs/2511.02565v1
- Date: Tue, 04 Nov 2025 13:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.05091
- Title: A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding
- Title(参考訳): 認知プロセスにインスパイアされた脳内視覚デコードのためのアーキテクチャ
- Authors: Jingyu Lu, Haonan Wang, Qixiang Zhang, Xiaomeng Li,
- Abstract要約: 本稿では,新しい階層型デコーディングフレームワークであるVisual Cortex Flow Architecture (VCFlow)を提案する。
VCFlowは視覚再建に必要な多様で相補的な認知情報をキャプチャする。
VCFlowは、再トレーニングなしに、再構成された各ビデオを10秒で生成し、高速で臨床的にスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 28.952331262050226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-agnostic brain decoding, which aims to reconstruct continuous visual experiences from fMRI without subject-specific training, holds great potential for clinical applications. However, this direction remains underexplored due to challenges in cross-subject generalization and the complex nature of brain signals. In this work, we propose Visual Cortex Flow Architecture (VCFlow), a novel hierarchical decoding framework that explicitly models the ventral-dorsal architecture of the human visual system to learn multi-dimensional representations. By disentangling and leveraging features from early visual cortex, ventral, and dorsal streams, VCFlow captures diverse and complementary cognitive information essential for visual reconstruction. Furthermore, we introduce a feature-level contrastive learning strategy to enhance the extraction of subject-invariant semantic representations, thereby enhancing subject-agnostic applicability to previously unseen subjects. Unlike conventional pipelines that need more than 12 hours of per-subject data and heavy computation, VCFlow sacrifices only 7\% accuracy on average yet generates each reconstructed video in 10 seconds without any retraining, offering a fast and clinically scalable solution. The source code will be released upon acceptance of the paper.
- Abstract(参考訳): fMRIからの連続的な視覚体験を、被験者固有の訓練なしで再構築することを目的とした、主観認識脳復号法は、臨床応用に大きな可能性を秘めている。
しかし、この方向は、クロスオブジェクトの一般化と脳信号の複雑な性質の難しさにより、まだ解明されていない。
本研究では,人間の視覚系の腹側-背側構造をモデル化し,多次元表現を学習する新しい階層型デコーディングフレームワークであるVisual Cortex Flow Architecture (VCFlow)を提案する。
VCFlowは、初期の視覚野、腹側、背側からの特徴を遠ざけ、活用することによって、視覚再建に必要な多様な補完的な認知情報をキャプチャする。
さらに,特徴レベルのコントラスト学習戦略を導入し,主観的不変な意味表現の抽出を強化し,従来見られなかった対象に対する主観的適応性を高める。
オブジェクトごとの12時間以上のデータと重い計算を必要とする従来のパイプラインとは異なり、VCFlowは平均で7倍の精度しか犠牲にしていないが、再構成されたビデオは再トレーニングなしで10秒で生成し、高速で臨床的にスケーラブルなソリューションを提供する。
ソースコードは、論文の受理時に公開される。
関連論文リスト
- NeuroSwift: A Lightweight Cross-Subject Framework for fMRI Visual Reconstruction of Complex Scenes [8.32275773383994]
視覚刺激のクロスオブジェクト再構成は依然として困難であり、計算的に要求される。
我々は,低レベル機能のためのAutoKLとセマンティクスのためのCLIPという,アダプタを拡散を介して統合するNeuroSwiftを提案する。
クロスオブジェクトの一般化では、ある被験者に事前トレーニングを行い、新しい被験者のパラメータの17%だけを微調整し、他の構成要素を凍結する。
論文 参考訳(メタデータ) (2025-10-02T17:45:43Z) - DecoFuse: Decomposing and Fusing the "What", "Where", and "How" for Brain-Inspired fMRI-to-Video Decoding [82.91021399231184]
既存のfMRI-to-video法は、しばしば空間情報や動き情報を見下ろしながら意味的内容に焦点を当てる。
そこで我々は,fMRI信号から映像をデコードするための,脳にインスパイアされた新しいフレームワークであるDecoFuseを提案する。
まず、ビデオはセマンティック、空間、動きの3つのコンポーネントに分解し、次に各コンポーネントを別々にデコードしてから、ビデオを再構成する。
論文 参考訳(メタデータ) (2025-04-01T05:28:37Z) - VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow [57.96482272333649]
機能可視化(FV)は、ニューロンが応答している情報をデコードするための強力なツールである。
本稿では,FVを原型画像の特徴の統計値と関連するネットワークフローの測定値を組み合わせることで,画像を生成することを提案する。
我々のアプローチは、最先端のFVに対して質的かつ定量的に改善される人間の理解可能な可視化をもたらす。
論文 参考訳(メタデータ) (2025-03-28T13:08:18Z) - Top-Down Guidance for Learning Object-Centric Representations [30.06924788022504]
Top-Down Guided Network (TDGNet)は、オブジェクト中心の表現を改善するためのトップダウンパスである。
TDGNetは、様々な複雑さを持つ複数のデータセットにおいて、現在のオブジェクト中心モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。