論文の概要: Natural scene reconstruction from fMRI signals using generative latent
diffusion
- arxiv url: http://arxiv.org/abs/2303.05334v2
- Date: Wed, 21 Jun 2023 07:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 17:35:07.842036
- Title: Natural scene reconstruction from fMRI signals using generative latent
diffusion
- Title(参考訳): 生成潜時拡散を用いたfMRI信号からの自然シーン再構成
- Authors: Furkan Ozcelik and Rufin VanRullen
- Abstract要約: 我々はBrain-Diffuserと呼ばれる2段階のシーン再構築フレームワークを提示する。
第1段階では、VDVAE(Very Deep Vari Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル(テキストおよび視覚)特徴に基づいて、遅延拡散モデルのイメージ・ツー・イメージ・フレームワークを使用する。
- 参考スコア(独自算出の注目度): 1.90365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural decoding research, one of the most intriguing topics is the
reconstruction of perceived natural images based on fMRI signals. Previous
studies have succeeded in re-creating different aspects of the visuals, such as
low-level properties (shape, texture, layout) or high-level features (category
of objects, descriptive semantics of scenes) but have typically failed to
reconstruct these properties together for complex scene images. Generative AI
has recently made a leap forward with latent diffusion models capable of
generating high-complexity images. Here, we investigate how to take advantage
of this innovative technology for brain decoding. We present a two-stage scene
reconstruction framework called ``Brain-Diffuser''. In the first stage,
starting from fMRI signals, we reconstruct images that capture low-level
properties and overall layout using a VDVAE (Very Deep Variational Autoencoder)
model. In the second stage, we use the image-to-image framework of a latent
diffusion model (Versatile Diffusion) conditioned on predicted multimodal (text
and visual) features, to generate final reconstructed images. On the publicly
available Natural Scenes Dataset benchmark, our method outperforms previous
models both qualitatively and quantitatively. When applied to synthetic fMRI
patterns generated from individual ROI (region-of-interest) masks, our trained
model creates compelling ``ROI-optimal'' scenes consistent with neuroscientific
knowledge. Thus, the proposed methodology can have an impact on both applied
(e.g. brain-computer interface) and fundamental neuroscience.
- Abstract(参考訳): ニューラルデコーディング研究において、最も興味深いトピックの1つは、fMRI信号に基づいて知覚された自然画像の再構成である。
以前の研究では、低レベルな特性(形状、テクスチャ、レイアウト)や高レベルな特徴(オブジェクトの分類、シーンの記述的意味論)など、視覚の異なる側面を再現することに成功しているが、複雑なシーン画像のためにこれらの特性を一緒に再構築することはできなかった。
生成AIは、最近、複雑度の高い画像を生成する潜在拡散モデルで飛躍的な進歩を遂げた。
本稿では,この革新的な脳デコード技術を活用する方法について検討する。
我々は ``brain-diffuser'' という2段階のシーン復元フレームワークを提案する。
第一段階では、fMRI信号から、VDVAE(Very Deep Variational Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。
第2段階では、予測されたマルチモーダル機能(テキストとビジュアル)に基づく潜在拡散モデル(バータタイル拡散)の画像から画像へのフレームワークを用いて、最終的な再構成画像を生成する。
公開されているNatural Scenes Datasetベンチマークでは,従来のモデルよりも質的,定量的に優れている。
個別のROIマスクから生成された合成fMRIパターンに適用すると、トレーニングされたモデルが神経科学的な知識と整合した「ROI最適」シーンを生成する。
したがって、提案手法は応用(脳-コンピュータインタフェースなど)と基礎神経科学の両方に影響を及ぼす可能性がある。
関連論文リスト
- MindBridge: A Cross-Subject Brain Decoding Framework [60.58552697067837]
脳の復号化は、獲得した脳信号から刺激を再構築することを目的としている。
現在、脳の復号化はモデルごとのオブジェクトごとのパラダイムに限られている。
我々は,1つのモデルのみを用いることで,オブジェクト間脳デコーディングを実現するMindBridgeを提案する。
論文 参考訳(メタデータ) (2024-04-11T15:46:42Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [7.597218661195779]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、VQ-VAE潜在表現とfMRIからデコードされたCLIPテキスト埋め込みが安定拡散される。
ステージ2では、fMRIからデコードされたCLIP視覚特徴を監視情報として利用し、バックパゲーションによりステージ1でデコードされた2つの特徴ベクトルを継続的に調整し、構造情報を整列させる。
論文 参考訳(メタデータ) (2023-08-08T13:28:34Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - MindDiffuser: Controlled Image Reconstruction from Human Brain Activity
with Semantic and Structural Diffusion [8.299415606889024]
我々はMindDiffuserと呼ばれる2段階の画像再構成モデルを提案する。
ステージ1では、fMRIからデコードされたVQ-VAE潜在表現とCLIPテキスト埋め込みが、安定拡散のイメージ・ツー・イメージのプロセスに置かれる。
ステージ2では、fMRIからデコードされた低レベルCLIP視覚特徴を監視情報として利用する。
論文 参考訳(メタデータ) (2023-03-24T16:41:42Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z) - Reconstruction of Perceived Images from fMRI Patterns and Semantic Brain
Exploration using Instance-Conditioned GANs [1.6904374000330984]
我々は, インスタンス定義型GAN(IC-GAN)モデルを用いて, fMRIパターンからの画像を, 正確な意味的属性と保存低レベル詳細の両方で再構成する。
実例の特徴,ノイズベクトル,およびそれに対応するfMRIパターンからの刺激の密度ベクトルを予測するために,尾根回帰モデルを訓練した。
IC-GANジェネレータを用いて、これらのfMRI予測変数に基づいて、新しいテスト画像の再構成を行った。
論文 参考訳(メタデータ) (2022-02-25T13:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。