論文の概要: BrainCLIP: Bridging Brain and Visual-Linguistic Representation via CLIP
for Generic Natural Visual Stimulus Decoding from fMRI
- arxiv url: http://arxiv.org/abs/2302.12971v1
- Date: Sat, 25 Feb 2023 03:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:45:50.761024
- Title: BrainCLIP: Bridging Brain and Visual-Linguistic Representation via CLIP
for Generic Natural Visual Stimulus Decoding from fMRI
- Title(参考訳): BrainCLIP:fMRIからの自然視刺激復号のためのCLIPによる脳と視覚言語表現
- Authors: Yulong Liu, Yongqiang Ma, Wei Zhou, Guibo Zhu, Nanning Zheng
- Abstract要約: 本稿では,視覚刺激分類と意味空間における再構成タスクを統合することで,タスクに依存しない脳復号モデルを提案する。
BrainCLIPは、VAEベースのアーキテクチャで、fMRIパターンを視覚とテキストの監視を組み合わせたCLIP埋め込み空間に変換する。
BrainCLIPは、新しいクラス分類タスクにおいて、大幅にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 51.911473457195555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reconstructing perceived natural images or decoding their categories from
fMRI signals are challenging tasks with great scientific significance. Due to
the lack of paired samples, most existing methods fail to generate semantically
recognizable reconstruction and are difficult to generalize to novel classes.
In this work, we propose, for the first time, a task-agnostic brain decoding
model by unifying the visual stimulus classification and reconstruction tasks
in a semantic space. We denote it as BrainCLIP, which leverages CLIP's
cross-modal generalization ability to bridge the modality gap between brain
activities, images, and texts. Specifically, BrainCLIP is a VAE-based
architecture that transforms fMRI patterns into the CLIP embedding space by
combining visual and textual supervision. Note that previous works rarely use
multi-modal supervision for visual stimulus decoding. Our experiments
demonstrate that textual supervision can significantly boost the performance of
decoding models compared to the condition where only image supervision exists.
BrainCLIP can be applied to multiple scenarios like fMRI-to-image generation,
fMRI-image-matching, and fMRI-text-matching. Compared with BraVL, a recently
proposed multi-modal method for fMRI-based brain decoding, BrainCLIP achieves
significantly better performance on the novel class classification task.
BrainCLIP also establishes a new state-of-the-art for fMRI-based natural image
reconstruction in terms of high-level image features.
- Abstract(参考訳): 知覚された自然画像の再構成や、fMRI信号からのカテゴリの復号は、非常に科学的に重要な課題である。
ペアサンプルの欠如により、既存のほとんどのメソッドは意味的に認識可能なリコンストラクションの生成に失敗し、新しいクラスへの一般化が困難である。
本研究では,視覚刺激の分類と再構築タスクを意味空間内で統一し,タスクに依存しない脳復号モデルを提案する。
我々は、脳活動、画像、テキスト間のモダリティギャップを橋渡しするCLIPのクロスモーダル一般化能力を活用するBrainCLIPと表現する。
具体的には、BrainCLIPはVAEベースのアーキテクチャで、fMRIパターンを視覚とテキストの監視を組み合わせたCLIP埋め込み空間に変換する。
以前の作品では視覚刺激のデコードにマルチモーダル監督を用いることは滅多にない。
本実験は,画像監督のみが存在する場合と比較して,テキストによる監視がデコードモデルの性能を著しく向上させることを示す。
BrainCLIPは、fMRI-to-image生成、fMRI-image-matching、fMRI-text-matchingといった複数のシナリオに適用できる。
最近提案されたfMRIベースの脳波復号法であるBraVLと比較して、BrainCLIPは新しいクラス分類タスクにおいて大幅に性能が向上する。
BrainCLIPはまた、高レベル画像の特徴の観点から、fMRIベースの自然画像再構成のための新しい最先端技術を確立する。
関連論文リスト
- BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - DreamCatcher: Revealing the Language of the Brain with fMRI using GPT
Embedding [6.497816402045099]
本稿では、fMRIデータに基づいてキャプションを生成し、視覚知覚の洞察を得るfMRIキャプションを提案する。
DreamCatcherはRepresentation Space(RSE)とRevEmbedding Decoderで構成される。
fMRIベースのキャプションには、神経メカニズムの理解、ヒューマン・コンピュータインタラクション、学習とトレーニングプロセスの強化など、さまざまな応用がある。
論文 参考訳(メタデータ) (2023-06-16T07:55:20Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。