論文の概要: Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion
- arxiv url: http://arxiv.org/abs/2310.00318v1
- Date: Sat, 30 Sep 2023 09:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:12:09.267486
- Title: Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion
- Title(参考訳): 相対的自己スーパービジョンと潜時拡散を用いた脳活動からのリアル画像の復号
- Authors: Jingyuan Sun, Mingxiao Li, Marie-Francine Moens
- Abstract要約: ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
- 参考スコア(独自算出の注目度): 29.335943994256052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing visual stimuli from human brain activities provides a
promising opportunity to advance our understanding of the brain's visual system
and its connection with computer vision models. Although deep generative models
have been employed for this task, the challenge of generating high-quality
images with accurate semantics persists due to the intricate underlying
representations of brain signals and the limited availability of parallel data.
In this paper, we propose a two-phase framework named Contrast and Diffuse
(CnD) to decode realistic images from functional magnetic resonance imaging
(fMRI) recordings. In the first phase, we acquire representations of fMRI data
through self-supervised contrastive learning. In the second phase, the encoded
fMRI representations condition the diffusion model to reconstruct visual
stimulus through our proposed concept-aware conditioning method. Experimental
results show that CnD reconstructs highly plausible images on challenging
benchmarks. We also provide a quantitative interpretation of the connection
between the latent diffusion model (LDM) components and the human brain's
visual system. In summary, we present an effective approach for reconstructing
visual stimuli based on human brain activity and offer a novel framework to
understand the relationship between the diffusion model and the human brain
visual system.
- Abstract(参考訳): 人間の脳活動から視覚刺激を再構築することは、脳の視覚システムとそのコンピュータビジョンモデルとの関連性を理解するための有望な機会となる。
このタスクには深層生成モデルが採用されているが、正確な意味を持つ高品質な画像を生成するという課題は、脳信号の複雑な基盤表現と並列データの可用性の制限のため継続される。
本稿では,FMRI(Function Magnetic resonance imaging)記録から現実像をデコードするContrast and Diffuse(CnD)という2相フレームワークを提案する。
第1フェーズでは,自己教師付きコントラスト学習によりfmriデータの表現を得る。
第2フェーズでは、符号化されたfMRI表現が拡散モデルに条件付けされ、提案手法により視覚刺激を再構成する。
実験結果から,CnDは難解なベンチマークで高可塑性画像を再構成した。
また、潜在拡散モデル(ldm)成分と人間の脳の視覚系との関係を定量的に解釈する。
本稿では,人間の脳活動に基づいて視覚刺激を再構成する効果的なアプローチを提案し,拡散モデルと脳視覚システムとの関係を理解するための新しい枠組みを提案する。
関連論文リスト
- fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。
我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:04:05Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。