Fugu-MT 論文翻訳(概要): Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities

論文の概要: Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities

arxiv url: http://arxiv.org/abs/2305.17214v4
Date: Wed, 27 Dec 2023 09:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 23:00:42.593394
Title: Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities
Title（参考訳）: 高解像度画像の脳活動からのデコードに対するコントラスト, 態度, 難易度
Authors: Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang, Marie-Francine Moens
Abstract要約: 2相fMRI表現学習フレームワークを提案する。第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
参考スコア（独自算出の注目度）: 31.448924808940284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoding visual stimuli from neural responses recorded by functional Magnetic Resonance Imaging (fMRI) presents an intriguing intersection between cognitive neuroscience and machine learning, promising advancements in understanding human visual perception and building non-invasive brain-machine interfaces. However, the task is challenging due to the noisy nature of fMRI signals and the intricate pattern of brain visual representations. To mitigate these challenges, we introduce a two-phase fMRI representation learning framework. The first phase pre-trains an fMRI feature learner with a proposed Double-contrastive Mask Auto-encoder to learn denoised representations. The second phase tunes the feature learner to attend to neural activation patterns most informative for visual reconstruction with guidance from an image auto-encoder. The optimized fMRI feature learner then conditions a latent diffusion model to reconstruct image stimuli from brain activities. Experimental results demonstrate our model's superiority in generating high-resolution and semantically accurate images, substantially exceeding previous state-of-the-art methods by 39.34% in the 50-way-top-1 semantic classification accuracy. Our research invites further exploration of the decoding task's potential and contributes to the development of non-invasive brain-machine interfaces.
Abstract（参考訳）: 機能的磁気共鳴画像(fmri)によって記録された神経反応からの視覚刺激の復号は、認知神経科学と機械学習の興味深い交点を示し、人間の視覚知覚の理解と非侵襲的脳-機械インターフェイスの構築を約束する。しかし、この課題はfMRI信号のノイズの性質と脳の視覚表現の複雑なパターンによって困難である。これらの課題を軽減するために,2相fMRI表現学習フレームワークを導入する。第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。第2フェーズは、画像オートエンコーダからのガイダンスにより、視覚再構成に最も有用な神経活性化パターンに、特徴学習者が出席するようにチューニングする。最適化されたfMRI特徴学習者は、脳活動から画像刺激を再構成するために潜時拡散モデルを設定する。実験により,50-way-top-1のセマンティック分類精度において,従来の最先端手法よりも39.34%,高解像度かつセマンティックな画像を生成する上で,モデルが優れていることを示す。本研究は,非侵襲的脳-機械インタフェースの開発に寄与し,その可能性を探究するものである。

関連論文リスト

Voxel-Level Brain States Prediction Using Swin Transformer [65.9194533414066]
本稿では, 4D Shifted Window (Swin) Transformer をエンコーダとして用い, 時間的情報を効率よく学習し, 畳み込みデコーダを用いて入力fMRIデータと同じ空間的, 時間的解像度で脳状態の予測を可能にするアーキテクチャを提案する。前回の23.04s fMRI時系列に基づいて7.2sの安静時脳活動を予測すると,高い精度が得られた。これは、人間の脳の時間的構造が高解像度でSwin Transformerモデルによって学習できることを示す有望な証拠である。
論文参考訳（メタデータ） (2025-06-13T04:14:38Z)
A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli [26.07986165893441]
脳信号を復号して刺激を再構築することで、AI、疾患治療、脳とコンピュータのインターフェースの進歩を加速させる。ニューロイメージングおよび画像生成モデルの最近の進歩は、fMRIに基づくデコードを大幅に改善した。本研究は、受動的脳信号からの刺激再構成に焦点を当て、fMRIに基づく脳のデコーディングの最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-03-20T09:23:07Z)
MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文参考訳（メタデータ） (2024-05-28T00:36:25Z)
MindShot: Brain Decoding Framework Using Only One Image [21.53687547774089]
MindShotは、クロスオブジェクトの事前知識を活用することで、効果的に数発のブレインデコーディングを実現するために提案されている。新しい被験者と事前訓練された個人は、同じ意味クラスのイメージのみを見る必要があり、モデルの適用性を大幅に拡大する。
論文参考訳（メタデータ） (2024-05-24T07:07:06Z)
Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文参考訳（メタデータ） (2024-05-24T06:06:11Z)
MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文参考訳（メタデータ） (2024-04-11T15:46:42Z)
NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties [23.893490180665996]
本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。公開されているfMRIデータセットでテストした結果,有望な結果が得られた。このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
論文参考訳（メタデータ） (2024-02-02T17:34:25Z)
fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文参考訳（メタデータ） (2023-11-01T07:24:22Z)
Decoding Realistic Images from Brain Activity with Contrastive Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文参考訳（メタデータ） (2023-09-30T09:15:22Z)
MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文参考訳（メタデータ） (2023-08-08T13:28:34Z)
Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文参考訳（メタデータ） (2023-03-26T14:14:58Z)
BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。脳の活動、画像、およびテキストの間のモダリティギャップを埋める。 BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文参考訳（メタデータ） (2023-02-25T03:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。