論文の概要: Semantic Neural Decoding via Cross-Modal Generation
- arxiv url: http://arxiv.org/abs/2303.14730v1
- Date: Sun, 26 Mar 2023 14:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:51:35.126822
- Title: Semantic Neural Decoding via Cross-Modal Generation
- Title(参考訳): クロスモーダル生成によるセマンティックニューラルデコーディング
- Authors: Xuelin Qian, Yikai Wang, Yanwei Fu, Xiangyang Xue, Jianfeng Feng
- Abstract要約: 本稿では,fMRI信号を直接符号化し,意味情報を抽出するエンドツーエンドフレームワークSemanSigを提案する。
SemanSigは、大規模なfMRIデータセットの事前トレーニングを必要としない。
- 参考スコア(独自算出の注目度): 76.90290593360983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic neural decoding aims to elucidate the cognitive processes of the
human brain by reconstructing observed images from brain recordings. Although
recent works have utilized deep generative models to generate images
conditioned on fMRI signals, achieving high-quality generation with consistent
semantics has proven to be a formidable challenge. To address this issue, we
propose an end-to-end framework, SemanSig, which directly encodes fMRI signals
and extracts semantic information. SemanSig leverages a deep generative model
to decode the semantic information into high-quality images. To enhance the
effectiveness of our framework, we use the ImageNet class prototype space as
the internal representation space of fMRI signals, thereby reducing signal
redundancy and learning difficulty. Consequently, this forms a semantic-rich
and visually-friendly internal representation for generative models to decode.
Notably, SemanSig does not require pre-training on a large fMRI dataset, and
performs remarkably well when trained from scratch, even when the fMRI signal
is limited. Our experimental results validate the effectiveness of SemanSig in
achieving high-quality image generation with consistent semantics.
- Abstract(参考訳): セマンティック・ニューラル・デコーディングは、脳の記録から観察されたイメージを再構成することで、人間の脳の認知過程を解明することを目的としている。
近年の研究では、fmri信号に基づく画像を生成するために深層生成モデルが用いられているが、一貫性のある意味論による高品質な生成を達成することは大きな課題となっている。
本稿では,fMRI信号を直接符号化し,意味情報を抽出するエンドツーエンドフレームワークSemanSigを提案する。
semansigは、深い生成モデルを利用して、セマンティック情報を高品質な画像にデコードする。
本フレームワークの有効性を高めるため,fMRI信号の内部表現空間として ImageNet クラスプロトタイプ空間を用い,信号冗長性と学習困難性を低減した。
これにより、生成モデルをデコードするための意味豊かで視覚的に親しみやすい内部表現を形成する。
特に、semansigは大きなfmriデータセットで事前トレーニングを必要とせず、fmri信号が制限された場合でも、スクラッチからトレーニングした場合に非常によく機能する。
実験結果は,一貫性のあるセマンティクスを用いた高品質画像生成におけるsemansigの有効性を検証する。
関連論文リスト
- MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。