論文の概要: Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion
- arxiv url: http://arxiv.org/abs/2310.00318v1
- Date: Sat, 30 Sep 2023 09:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:12:09.267486
- Title: Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion
- Title(参考訳): 相対的自己スーパービジョンと潜時拡散を用いた脳活動からのリアル画像の復号
- Authors: Jingyuan Sun, Mingxiao Li, Marie-Francine Moens
- Abstract要約: ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
- 参考スコア(独自算出の注目度): 29.335943994256052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing visual stimuli from human brain activities provides a
promising opportunity to advance our understanding of the brain's visual system
and its connection with computer vision models. Although deep generative models
have been employed for this task, the challenge of generating high-quality
images with accurate semantics persists due to the intricate underlying
representations of brain signals and the limited availability of parallel data.
In this paper, we propose a two-phase framework named Contrast and Diffuse
(CnD) to decode realistic images from functional magnetic resonance imaging
(fMRI) recordings. In the first phase, we acquire representations of fMRI data
through self-supervised contrastive learning. In the second phase, the encoded
fMRI representations condition the diffusion model to reconstruct visual
stimulus through our proposed concept-aware conditioning method. Experimental
results show that CnD reconstructs highly plausible images on challenging
benchmarks. We also provide a quantitative interpretation of the connection
between the latent diffusion model (LDM) components and the human brain's
visual system. In summary, we present an effective approach for reconstructing
visual stimuli based on human brain activity and offer a novel framework to
understand the relationship between the diffusion model and the human brain
visual system.
- Abstract(参考訳): 人間の脳活動から視覚刺激を再構築することは、脳の視覚システムとそのコンピュータビジョンモデルとの関連性を理解するための有望な機会となる。
このタスクには深層生成モデルが採用されているが、正確な意味を持つ高品質な画像を生成するという課題は、脳信号の複雑な基盤表現と並列データの可用性の制限のため継続される。
本稿では,FMRI(Function Magnetic resonance imaging)記録から現実像をデコードするContrast and Diffuse(CnD)という2相フレームワークを提案する。
第1フェーズでは,自己教師付きコントラスト学習によりfmriデータの表現を得る。
第2フェーズでは、符号化されたfMRI表現が拡散モデルに条件付けされ、提案手法により視覚刺激を再構成する。
実験結果から,CnDは難解なベンチマークで高可塑性画像を再構成した。
また、潜在拡散モデル(ldm)成分と人間の脳の視覚系との関係を定量的に解釈する。
本稿では,人間の脳活動に基づいて視覚刺激を再構成する効果的なアプローチを提案し,拡散モデルと脳視覚システムとの関係を理解するための新しい枠組みを提案する。
関連論文リスト
- Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Psychometry: An Omnifit Model for Image Reconstruction from Human Brain Activity [60.983327742457995]
人間の脳活動から見るイメージを再構築することで、人間とコンピュータのビジョンをBrain-Computer Interfaceを通して橋渡しする。
異なる被験者から得られた機能的磁気共鳴イメージング(fMRI)による画像再構成のための全能モデルであるサイコメトリを考案した。
論文 参考訳(メタデータ) (2024-03-29T07:16:34Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked
Modeling for Vision Decoding [0.0]
MinD-Vis:Double-Conditioned Latent Diffusion Model for Human Vision Decodingを提案する。
我々はMinD-Visが、非常に少ないペアアノテーションを用いて、脳の記録から意味的に一致する詳細を再現できることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。