論文の概要: MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion
- arxiv url: http://arxiv.org/abs/2303.14139v1
- Date: Fri, 24 Mar 2023 16:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:45:31.689394
- Title: MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion
- Title(参考訳): minddiffuser: 意味的および構造的拡散を伴うヒト脳活動からの画像再構成制御
- Authors: Yizhuo Lu, Changde Du, Dianpeng Wang and Huiguang He
- Abstract要約: 我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、fMRIからデコードされたVQ-VAE潜在表現とCLIPテキスト埋め込みが、安定拡散のイメージ・ツー・イメージのプロセスに置かれる。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用する。
- 参考スコア(独自算出の注目度): 8.299415606889024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing visual stimuli from measured functional magnetic resonance
imaging (fMRI) has been a meaningful and challenging task. Previous studies
have successfully achieved reconstructions with structures similar to the
original images, such as the outlines and size of some natural images. However,
these reconstructions lack explicit semantic information and are difficult to
discern. In recent years, many studies have utilized multi-modal pre-trained
models with stronger generative capabilities to reconstruct images that are
semantically similar to the original ones. However, these images have
uncontrollable structural information such as position and orientation. To
address both of the aforementioned issues simultaneously, we propose a
two-stage image reconstruction model called MindDiffuser, utilizing Stable
Diffusion. In Stage 1, the VQ-VAE latent representations and the CLIP text
embeddings decoded from fMRI are put into the image-to-image process of Stable
Diffusion, which yields a preliminary image that contains semantic and
structural information. In Stage 2, we utilize the low-level CLIP visual
features decoded from fMRI as supervisory information, and continually adjust
the two features in Stage 1 through backpropagation to align the structural
information. The results of both qualitative and quantitative analyses
demonstrate that our proposed model has surpassed the current state-of-the-art
models in terms of reconstruction results on Natural Scenes Dataset (NSD).
Furthermore, the results of ablation experiments indicate that each component
of our model is effective for image reconstruction.
- Abstract(参考訳): 機能的磁気共鳴イメージング(fmri)による視覚刺激の再構成は有意義かつ困難な課題である。
従来の研究は、いくつかの自然画像の輪郭や大きさなど、原像に似た構造で復元に成功した。
しかし、これらの再構成には明確な意味情報がなく、識別が難しい。
近年、多くの研究は、より強力な生成能力を持つマルチモーダル事前学習モデルを用いて、本来のものと意味的に類似した画像を再構成している。
しかし、これらの画像は位置や方向などの制御不能な構造情報を持っている。
両課題を同時に解決するために,安定拡散を利用した2段階画像再構成モデルMindDiffuserを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みを安定拡散のイメージ・ツー・イメージプロセスに配置し、セマンティックおよび構造情報を含む予備画像を生成する。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用し、バックプロパゲーションによりステージ1の2つの特徴を継続的に調整し、構造情報を整列させる。
定性的および定量的解析の結果から,提案モデルが自然景観データセット(NSD)の再構成結果において,現在の最先端モデルを上回っていることが示唆された。
さらに, アブレーション実験の結果から, モデルの各成分が画像再構成に有効であることが示唆された。
関連論文リスト
- Double-Flow GAN model for the reconstruction of perceived faces from brain activities [13.707575848841405]
そこで我々はDouble-Flow GANと呼ばれる新しい再構築フレームワークを提案する。
また,画像から抽出した特徴を条件として,fMRIから条件付き再構成モデルを事前学習するための事前学習プロセスも設計した。
その結果, 提案手法は, 複数の顔特性を正確に再構成し, 過去の再現モデルより優れ, 最先端の復元能力を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-12T18:07:57Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Natural scene reconstruction from fMRI signals using generative latent
diffusion [1.90365714903665]
我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
論文 参考訳(メタデータ) (2023-03-09T15:24:26Z) - Model-Guided Multi-Contrast Deep Unfolding Network for MRI
Super-resolution Reconstruction [68.80715727288514]
MRI観察行列を用いて,反復型MGDUNアルゴリズムを新しいモデル誘導深部展開ネットワークに展開する方法を示す。
本稿では,医療画像SR再構成のためのモデルガイド型解釈可能なDeep Unfolding Network(MGDUN)を提案する。
論文 参考訳(メタデータ) (2022-09-15T03:58:30Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z) - Federated Learning of Generative Image Priors for MRI Reconstruction [5.3963856146595095]
マルチインスティカルな取り組みは、画像データのクロスサイト共有中にプライバシー上のリスクが発生するにもかかわらず、ディープMRI再構成モデルのトレーニングを容易にする。
FedGIMP (FedGIMP) を用いた新しいMRI再構成法を提案する。
FedGIMPは、2段階のアプローチを利用する: 生成MRIのクロスサイト学習と、イメージングオペレーターの主題固有の注入である。
論文 参考訳(メタデータ) (2022-02-08T22:17:57Z) - Multi-modal Aggregation Network for Fast MR Imaging [85.25000133194762]
我々は,完全サンプル化された補助モダリティから補完表現を発見できる,MANetという新しいマルチモーダル・アグリゲーション・ネットワークを提案する。
我々のMANetでは,完全サンプリングされた補助的およびアンアンサンプされた目標モダリティの表現は,特定のネットワークを介して独立に学習される。
私たちのMANetは、$k$-spaceドメインの周波数信号を同時に回復できるハイブリッドドメイン学習フレームワークに従います。
論文 参考訳(メタデータ) (2021-10-15T13:16:59Z) - Multi-institutional Collaborations for Improving Deep Learning-based
Magnetic Resonance Image Reconstruction Using Federated Learning [62.17532253489087]
深層学習法はmr画像再構成において優れた性能をもたらすことが示されている。
これらの方法は、高い取得コストと医療データプライバシー規制のために収集および共有が困難である大量のデータを必要とします。
我々は,異なる施設で利用可能なmrデータを活用し,患者のプライバシーを保ちながら,連合学習(fl)ベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-03-03T03:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。