論文の概要: NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties
- arxiv url: http://arxiv.org/abs/2402.01590v1
- Date: Fri, 2 Feb 2024 17:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 14:02:16.917909
- Title: NeuroCine: Decoding Vivid Video Sequences from Human Brain Activties
- Title(参考訳): NeuroCine:人間の脳活動から映像を復号する
- Authors: Jingyuan Sun, Mingxiao Li, Zijiao Chen, Marie-Francine Moens
- Abstract要約: 本稿では,fMRIデータを復号化するための新たな二相フレームワークであるNeuroCineを紹介する。
公開されているfMRIデータセットでテストした結果,有望な結果が得られた。
このモデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
- 参考スコア(独自算出の注目度): 26.101921525746487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the pursuit to understand the intricacies of human brain's visual
processing, reconstructing dynamic visual experiences from brain activities
emerges as a challenging yet fascinating endeavor. While recent advancements
have achieved success in reconstructing static images from non-invasive brain
recordings, the domain of translating continuous brain activities into video
format remains underexplored. In this work, we introduce NeuroCine, a novel
dual-phase framework to targeting the inherent challenges of decoding fMRI
data, such as noises, spatial redundancy and temporal lags. This framework
proposes spatial masking and temporal interpolation-based augmentation for
contrastive learning fMRI representations and a diffusion model enhanced by
dependent prior noise for video generation. Tested on a publicly available fMRI
dataset, our method shows promising results, outperforming the previous
state-of-the-art models by a notable margin of ${20.97\%}$, ${31.00\%}$ and
${12.30\%}$ respectively on decoding the brain activities of three subjects in
the fMRI dataset, as measured by SSIM. Additionally, our attention analysis
suggests that the model aligns with existing brain structures and functions,
indicating its biological plausibility and interpretability.
- Abstract(参考訳): 人間の脳の視覚処理の複雑さを理解するために、脳の活動からダイナミックな視覚体験を再構築することは、挑戦的で魅力的な取り組みとして現れます。
近年の進歩は、非侵襲的脳記録から静的画像の再構築に成功したが、連続的な脳活動をビデオ形式に翻訳する領域は未検討のままである。
本稿では,ノイズや空間冗長性,時間的遅延といったfmriデータのデコードに関する本質的な課題を対象とする,新たな2相フレームワークであるneurocineを紹介する。
本フレームワークは、コントラスト学習fMRI表現のための空間マスキングと時間補間に基づく拡張と、映像生成のための先行雑音による拡散モデルを提案する。
SSIMが測定した,fMRIデータセットにおける3つの被験者の脳活動の復号化について,各被験者の脳活動の復号化について,それぞれ${20.97\%}$,${31.00\%}$,${12.30\%}$の顕著なマージンで,従来の最先端モデルを上回る有望な結果を示す。
さらに,本モデルが既存の脳構造や機能と一致し,その生物学的妥当性と解釈可能性を示すことが示唆された。
関連論文リスト
- fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Decoding Realistic Images from Brain Activity with Contrastive
Self-supervision and Latent Diffusion [29.335943994256052]
ヒトの脳活動から視覚刺激を再構築することは、脳の視覚系を理解する上で有望な機会となる。
機能的磁気共鳴イメージング(fMRI)記録から現実的な画像をデコードする2相フレームワークContrast and Diffuse(CnD)を提案する。
論文 参考訳(メタデータ) (2023-09-30T09:15:22Z) - UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion
Model from Human Brain Activity [2.666777614876322]
人間の脳活動からの1つの拡散モデルにおける画像再構成とキャプションを統一するUniBrainを提案する。
我々はfMRIボクセルをテキストに変換し、低レベル情報に潜入して現実的なキャプションや画像を生成する。
UniBrainは、画像再構成の点で現在の手法を質的にも量的にも優れており、Natural Scenesデータセットで初めて画像キャプションの結果を報告している。
論文 参考訳(メタデータ) (2023-08-14T19:49:29Z) - Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain
Activities [31.448924808940284]
2相fMRI表現学習フレームワークを提案する。
第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。
第2フェーズでは、イメージオートエンコーダからのガイダンスで視覚的再構成に最も有用な神経活性化パターンに参加するように、特徴学習者に調整する。
論文 参考訳(メタデータ) (2023-05-26T19:16:23Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - Patched Diffusion Models for Unsupervised Anomaly Detection in Brain MRI [55.78588835407174]
本稿では,正常脳解剖のパッチベース推定法として拡散モデルの生成タスクを再構築する手法を提案する。
腫瘍と多発性硬化症について検討し,既存のベースラインと比較して25.1%の改善がみられた。
論文 参考訳(メタデータ) (2023-03-07T09:40:22Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。