論文の概要: Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities
- arxiv url: http://arxiv.org/abs/2305.17214v3
- Date: Sat, 23 Dec 2023 15:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:43:39.132204
- Title: Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities
- Title(参考訳): 高解像度画像の脳活動からのデコードに対するコントラスト, 態度, 難易度
- Authors: Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang,
Marie-Francine Moens
- Abstract要約: 2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
- 参考スコア(独自算出の注目度): 31.448924808940284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding visual stimuli from neural responses recorded by functional Magnetic
Resonance Imaging (fMRI) presents an intriguing intersection between cognitive
neuroscience and machine learning, promising advancements in understanding
human visual perception and building non-invasive brain-machine interfaces.
However, the task is challenging due to the noisy nature of fMRI signals and
the intricate pattern of brain visual representations. To mitigate these
challenges, we introduce a two-phase fMRI representation learning framework.
The first phase pre-trains an fMRI feature learner with a proposed
Double-contrastive Mask Auto-encoder to learn denoised representations. The
second phase tunes the feature learner to attend to neural activation patterns
most informative for visual reconstruction with guidance from an image
auto-encoder. The optimized fMRI feature learner then conditions a latent
diffusion model to reconstruct image stimuli from brain activities.
Experimental results demonstrate our model's superiority in generating
high-resolution and semantically accurate images, substantially exceeding
previous state-of-the-art methods by 39.34% in the 50-way-top-1 semantic
classification accuracy. Our research invites further exploration of the
decoding task's potential and contributes to the development of non-invasive
brain-machine interfaces.
- Abstract(参考訳): 機能的磁気共鳴画像(fmri)によって記録された神経反応からの視覚刺激の復号は、認知神経科学と機械学習の興味深い交点を示し、人間の視覚知覚の理解と非侵襲的脳-機械インターフェイスの構築を約束する。
しかし、この課題はfMRI信号のノイズの性質と脳の視覚表現の複雑なパターンによって困難である。
これらの課題を軽減するために,2相fMRI表現学習フレームワークを導入する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズは、画像オートエンコーダからのガイダンスにより、視覚再構成に最も有用な神経活性化パターンに、特徴学習者が出席するようにチューニングする。
最適化されたfMRI特徴学習者は、脳活動から画像刺激を再構成するために潜時拡散モデルを設定する。
実験により,50-way-top-1のセマンティック分類精度において,従来の最先端手法よりも39.34%,高解像度かつセマンティックな画像を生成する上で,モデルが優れていることを示す。
本研究は,非侵襲的脳-機械インタフェースの開発に寄与し,その可能性を探究するものである。
関連論文リスト
- MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - MindShot: Brain Decoding Framework Using Only One Image [21.53687547774089]
MindShotは、クロスオブジェクトの事前知識を活用することで、効果的に数発のブレインデコーディングを実現するために提案されている。
新しい被験者と事前訓練された個人は、同じ意味クラスのイメージのみを見る必要があり、モデルの適用性を大幅に拡大する。
論文 参考訳(メタデータ) (2024-05-24T07:07:06Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文 参考訳(メタデータ) (2024-02-02T17:34:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。