論文の概要: BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding
- arxiv url: http://arxiv.org/abs/2302.12971v3
- Date: Mon, 15 May 2023 04:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:19:16.401846
- Title: BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding
- Title(参考訳): BrainCLIP:遺伝性自然視刺激復号のための脳と視覚言語表現Via CLIP
- Authors: Yulong Liu, Yongqiang Ma, Wei Zhou, Guibo Zhu, Nanning Zheng
- Abstract要約: BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
- 参考スコア(独自算出の注目度): 51.911473457195555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Due to the lack of paired samples and the low signal-to-noise ratio of
functional MRI (fMRI) signals, reconstructing perceived natural images or
decoding their semantic contents from fMRI data are challenging tasks. In this
work, we propose, for the first time, a task-agnostic fMRI-based brain decoding
model, BrainCLIP, which leverages CLIP's cross-modal generalization ability to
bridge the modality gap between brain activity, image, and text. Our
experiments demonstrate that CLIP can act as a pivot for generic brain decoding
tasks, including zero-shot visual categories decoding, fMRI-image/text
matching, and fMRI-to-image generation. Specifically, BrainCLIP aims to train a
mapping network that transforms fMRI patterns into a well-aligned CLIP
embedding space by combining visual and textual supervision. Our experiments
show that this combination can boost the decoding model's performance on
certain tasks like fMRI-text matching and fMRI-to-image generation. On the
zero-shot visual category decoding task, BrainCLIP achieves significantly
better performance than BraVL, a recently proposed multi-modal method
specifically designed for this task. BrainCLIP can also reconstruct visual
stimuli with high semantic fidelity and establishes a new state-of-the-art for
fMRI-based natural image reconstruction in terms of high-level semantic
features.
- Abstract(参考訳): ペアサンプルの欠如と機能的MRI(fMRI)信号の低信号対雑音比のため、知覚された自然画像の再構成や、fMRIデータからそれらの意味的内容の復号は難しい作業である。
本研究では,脳活動,画像,テキスト間のモダリティギャップを埋めるCLIPのクロスモーダル一般化能力を活用した,タスク非依存のfMRI脳デコーディングモデルBrainCLIPを提案する。
実験により、CLIPは、ゼロショット視覚カテゴリー復号、fMRI画像/テキストマッチング、fMRI画像生成など、一般的な脳波復号タスクのピボットとして機能することが示された。
具体的には、BrainCLIPは、視覚とテキストの監督を組み合わせることで、fMRIパターンをよく整合したCLIP埋め込み空間に変換するマッピングネットワークのトレーニングを目指している。
この組み合わせにより,fMRIテキストマッチングやfMRI画像生成などのタスクにおいて,デコードモデルの性能が向上することを示す。
ゼロショット視覚圏デコードタスクでは、BraVLよりも性能が大幅に向上し、このタスク用に特別に設計されたマルチモーダル方式が提案されている。
BrainCLIPはまた、高い意味的忠実度で視覚刺激を再構築し、高レベルな意味的特徴の観点から、fMRIベースの自然画像再構成のための新しい最先端技術を確立することができる。
関連論文リスト
- BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models [0.0]
本稿では,脳活動からのセマンティック情報デコーディングタスクの高速化を目的とした生成フレームワークであるBrainChatを提案する。
BrainChatはfMRI質問応答とfMRIキャプションを実装している。
BrainChatは非常にフレキシブルで、画像データなしで高いパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2024-06-10T12:06:15Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - DreamCatcher: Revealing the Language of the Brain with fMRI using GPT
Embedding [6.497816402045099]
本稿では、fMRIデータに基づいてキャプションを生成し、視覚知覚の洞察を得るfMRIキャプションを提案する。
DreamCatcherはRepresentation Space(RSE)とRevEmbedding Decoderで構成される。
fMRIベースのキャプションには、神経メカニズムの理解、ヒューマン・コンピュータインタラクション、学習とトレーニングプロセスの強化など、さまざまな応用がある。
論文 参考訳(メタデータ) (2023-06-16T07:55:20Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。