論文の概要: NeuroSwift: A Lightweight Cross-Subject Framework for fMRI Visual Reconstruction of Complex Scenes
- arxiv url: http://arxiv.org/abs/2510.02266v1
- Date: Thu, 02 Oct 2025 17:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.29325
- Title: NeuroSwift: A Lightweight Cross-Subject Framework for fMRI Visual Reconstruction of Complex Scenes
- Title(参考訳): NeuroSwift:fMRIによる複合シーンの視覚再構成のための軽量クロスオブジェクトフレームワーク
- Authors: Shiyi Zhang, Dong Liang, Yihang Zhou,
- Abstract要約: 視覚刺激のクロスオブジェクト再構成は依然として困難であり、計算的に要求される。
我々は,低レベル機能のためのAutoKLとセマンティクスのためのCLIPという,アダプタを拡散を介して統合するNeuroSwiftを提案する。
クロスオブジェクトの一般化では、ある被験者に事前トレーニングを行い、新しい被験者のパラメータの17%だけを微調整し、他の構成要素を凍結する。
- 参考スコア(独自算出の注目度): 8.32275773383994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reconstructing visual information from brain activity via computer vision technology provides an intuitive understanding of visual neural mechanisms. Despite progress in decoding fMRI data with generative models, achieving accurate cross-subject reconstruction of visual stimuli remains challenging and computationally demanding. This difficulty arises from inter-subject variability in neural representations and the brain's abstract encoding of core semantic features in complex visual inputs. To address these challenges, we propose NeuroSwift, which integrates complementary adapters via diffusion: AutoKL for low-level features and CLIP for semantics. NeuroSwift's CLIP Adapter is trained on Stable Diffusion generated images paired with COCO captions to emulate higher visual cortex encoding. For cross-subject generalization, we pretrain on one subject and then fine-tune only 17 percent of parameters (fully connected layers) for new subjects, while freezing other components. This enables state-of-the-art performance with only one hour of training per subject on lightweight GPUs (three RTX 4090), and it outperforms existing methods.
- Abstract(参考訳): 脳の活動からコンピュータビジョン技術を通して視覚情報を再構築することは、視覚神経機構の直感的な理解を提供する。
生成モデルを用いたfMRIデータの復号化の進展にもかかわらず、視覚刺激の正確なクロスオブジェクト再構成を実現することは困難であり、計算的に要求される。
この困難は、神経表現における物体間変動性と、複雑な視覚入力における脳のコアセマンティック特徴の抽象的エンコーディングから生じる。
これらの課題に対処するため、我々はNuroSwiftを提案し、これは拡散を介して補完的なアダプタを統合する:AutoKLは低レベル機能、CLIPはセマンティクスである。
NeuroSwiftのCLIP Adapterは、COCOキャプションと組み合わせて高次視覚野のエンコーディングをエミュレートする、安定拡散生成画像に基づいて訓練されている。
クロスオブジェクト一般化では、ある対象に対して事前トレーニングを行い、新しい対象に対してパラメータ(完全に連結された層)の17%のみを微調整し、他の構成要素を凍結する。
これにより、軽量GPU(3つのRTX 4090)で被験者1人のトレーニングに1時間しかかからない最先端のパフォーマンスを実現し、既存の手法よりも優れています。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [50.69448058071441]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換をシミュレートする生成フレームワークであるSynBrainを提案する。
そこで本研究では,SynBrainが主観的視覚-fMRI符号化性能において最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - Neurons: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction [13.110669865114533]
NEURONSは、学習を4つの相関したサブタスクに分離するコンセプトフレームワークである。
これは視覚野の機能的特殊化をシミュレートし、モデルが多様なビデオコンテンツをキャプチャすることを可能にする。
NEURONSは視覚野と強い機能相関を示し、脳とコンピュータのインターフェースと臨床応用の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-14T08:12:28Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。