論文の概要: Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency
- arxiv url: http://arxiv.org/abs/2207.01011v1
- Date: Sun, 3 Jul 2022 11:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 10:14:23.435397
- Title: Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency
- Title(参考訳): 機能的磁気共鳴画像を用いたganインバージョンによる顔画像再構成
- Authors: Pei-Chun Chang, Yan-Yu Tien, Chia-Lin Chen, Li-Fen Chen, Yong-Sheng
Chen and Hui-Ling Chan
- Abstract要約: 我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
- 参考スコア(独自算出の注目度): 5.705640492618758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuroscience studies have revealed that the brain encodes visual content and
embeds information in neural activity. Recently, deep learning techniques have
facilitated attempts to address visual reconstructions by mapping brain
activity to image stimuli using generative adversarial networks (GANs).
However, none of these studies have considered the semantic meaning of latent
code in image space. Omitting semantic information could potentially limit the
performance. In this study, we propose a new framework to reconstruct facial
images from functional Magnetic Resonance Imaging (fMRI) data. With this
framework, the GAN inversion is first applied to train an image encoder to
extract latent codes in image space, which are then bridged to fMRI data using
linear transformation. Following the attributes identified from fMRI data using
an attribute classifier, the direction in which to manipulate attributes is
decided and the attribute manipulator adjusts the latent code to improve the
consistency between the seen image and the reconstructed image. Our
experimental results suggest that the proposed framework accomplishes two
goals: (1) reconstructing clear facial images from fMRI data and (2)
maintaining the consistency of semantic characteristics.
- Abstract(参考訳): 神経科学の研究により、脳は視覚コンテンツをエンコードし、神経活動に情報を埋め込むことが明らかになった。
近年,gans(generative adversarial network)を用いた脳活動と画像刺激のマッピングによる視覚再構成の試みが進められている。
しかし、これらの研究は画像空間における潜在コードの意味を考慮していない。
意味情報の省略は、パフォーマンスを制限する可能性がある。
本研究では,機能的磁気共鳴画像(fMRI)データから顔画像の再構成を行う新しい枠組みを提案する。
このフレームワークにより、GANインバージョンはまずイメージエンコーダを訓練し、画像空間内の遅延符号を抽出し、線形変換を用いてfMRIデータにブリッジする。
属性分類器を用いてfMRIデータから特定された属性に続いて、属性を操作する方向が決定され、属性マニピュレータが潜在コードを調整することにより、画像と再構成画像との整合性を改善する。
提案手法は,fMRIデータから明瞭な顔画像の再構成と,意味的特徴の一貫性の維持という2つの目標を達成できることを実験的に示唆した。
関連論文リスト
- MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Attention Hybrid Variational Net for Accelerated MRI Reconstruction [7.046523233290946]
磁気共鳴画像(MRI)の高速化のための圧縮センシング(CS)対応データ再構成の適用は依然として難しい問題である。
これは、加速マスクからk空間で失った情報が、完全にサンプリングされた画像の質に似た画像の再構成を困難にしているためである。
我々は,k空間と画像領域の両方で学習を行う,深層学習に基づく注目ハイブリッド変分ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T16:19:07Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [8.299415606889024]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、fMRIからデコードされたVQ-VAE潜在表現とCLIPテキスト埋め込みが、安定拡散のイメージ・ツー・イメージのプロセスに置かれる。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用する。
論文 参考訳(メタデータ) (2023-03-24T16:41:42Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。