論文の概要: Mind Reader: Reconstructing complex images from brain activities
- arxiv url: http://arxiv.org/abs/2210.01769v1
- Date: Fri, 30 Sep 2022 06:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:06:40.521232
- Title: Mind Reader: Reconstructing complex images from brain activities
- Title(参考訳): 脳活動から複雑なイメージを再構築するmind reader
- Authors: Sikun Lin, Thomas Sprague, Ambuj K Singh
- Abstract要約: 我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
- 参考スコア(独自算出の注目度): 16.78619734818198
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding how the brain encodes external stimuli and how these stimuli
can be decoded from the measured brain activities are long-standing and
challenging questions in neuroscience. In this paper, we focus on
reconstructing the complex image stimuli from fMRI (functional magnetic
resonance imaging) signals. Unlike previous works that reconstruct images with
single objects or simple shapes, our work aims to reconstruct image stimuli
that are rich in semantics, closer to everyday scenes, and can reveal more
perspectives. However, data scarcity of fMRI datasets is the main obstacle to
applying state-of-the-art deep learning models to this problem. We find that
incorporating an additional text modality is beneficial for the reconstruction
problem compared to directly translating brain signals to images. Therefore,
the modalities involved in our method are: (i) voxel-level fMRI signals, (ii)
observed images that trigger the brain signals, and (iii) textual description
of the images. To further address data scarcity, we leverage an aligned
vision-language latent space pre-trained on massive datasets. Instead of
training models from scratch to find a latent space shared by the three
modalities, we encode fMRI signals into this pre-aligned latent space. Then,
conditioned on embeddings in this space, we reconstruct images with a
generative model. The reconstructed images from our pipeline balance both
naturalness and fidelity: they are photo-realistic and capture the ground truth
image contents well.
- Abstract(参考訳): 脳がどのように外部刺激をコードし、これらの刺激を計測された脳の活動からどのようにデコードするかを理解することは、神経科学における長年の課題である。
本稿では、fmri(functional magnetic resonance imaging)信号から複雑な画像刺激を再構成することに焦点を当てる。
単一の物体や単純な形状で画像を再構成する従来の作品とは異なり、本研究の目的は、日常的な場面に近い意味に富んだイメージ刺激を再構築することであり、より多くの視点を明らかにすることにある。
しかし、この問題に最先端のディープラーニングモデルを適用する上で、fMRIデータセットのデータ不足が主な障害となっている。
脳信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
したがって,本手法に係わるモダリティは次のとおりである。
(i)ボクセルレベルのfMRI信号
(ii)脳信号を誘発する画像を観察し、
(iii)画像の本文的記述。
さらにデータの不足に対処するために,大量のデータセットで事前学習された視覚言語潜在空間を活用する。
3つのモードで共有される潜在空間を見つけるために、スクラッチからモデルをトレーニングする代わりに、fMRI信号を予め整列された潜在空間にエンコードする。
そして,この空間の埋め込みを条件とし,生成モデルを用いて画像の再構成を行う。
パイプラインから再構成された画像は、自然性と忠実性の両方のバランスをとります。
関連論文リスト
- Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance [3.74142789780782]
現代のLCDは、構造的かつ意味論的に妥当な画像生成のためのマルチモーダルガイダンスをいかに取り入れているかを示す。
Brain-StreamsはfMRI信号を脳の領域から適切な埋め込みにマッピングする。
我々は,実fMRIデータセットを用いて,Brain-Streamsの定量的および定性的に再構成能力を検証する。
論文 参考訳(メタデータ) (2024-09-18T16:19:57Z) - Brain3D: Generating 3D Objects from fMRI [76.41771117405973]
被験者のfMRIデータを入力として利用する新しい3Dオブジェクト表現学習手法であるBrain3Dを設計する。
我々は,人間の視覚系の各領域の異なる機能的特徴を,我々のモデルが捉えていることを示す。
予備評価は、Brain3Dがシミュレーションシナリオで障害した脳領域を正常に識別できることを示唆している。
論文 参考訳(メタデータ) (2024-05-24T06:06:11Z) - MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - Learning Multimodal Volumetric Features for Large-Scale Neuron Tracing [72.45257414889478]
オーバーセグメントニューロン間の接続を予測し,人間の作業量を削減することを目的としている。
最初はFlyTracingという名前のデータセットを構築しました。
本稿では,高密度なボリュームEM画像の埋め込みを生成するための,新しい接続性を考慮したコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-05T19:45:12Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - Brain Captioning: Decoding human brain activity into images and text [1.5486926490986461]
本稿では,脳活動を意味のある画像やキャプションにデコードする革新的な手法を提案する。
提案手法は,最先端画像キャプションモデルを活用し,ユニークな画像再構成パイプラインを組み込んだものである。
生成したキャプションと画像の両方の定量的指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-19T09:57:19Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。