論文の概要: BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction
- arxiv url: http://arxiv.org/abs/2312.14871v2
- Date: Tue, 20 Aug 2024 14:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:30:33.996598
- Title: BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction
- Title(参考訳): BrainVis:画像再構成による脳と視覚信号の橋渡し
- Authors: Honghao Fu, Zhiqi Shen, Jing Jih Chin, Hao Wang,
- Abstract要約: 脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 7.512223286737468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing and reconstructing visual stimuli from brain signals effectively advances the understanding of human visual system. However, the EEG signals are complex and contain significant noise. This leads to substantial limitations in existing works of visual stimuli reconstruction from EEG, such as difficulties in aligning EEG embeddings with the fine-grained semantic information and a heavy reliance on additional large self-collected dataset for training. To address these challenges, we propose a novel approach called BrainVis. Firstly, we divide the EEG signals into various units and apply a self-supervised approach on them to obtain EEG time-domain features, in an attempt to ease the training difficulty. Additionally, we also propose to utilize the frequency-domain features to enhance the EEG representations. Then, we simultaneously align EEG time-frequency embeddings with the interpolation of the coarse and fine-grained semantics in the CLIP space, to highlight the primary visual components and reduce the cross-modal alignment difficulty. Finally, we adopt the cascaded diffusion models to reconstruct images. Using only 10\% training data of the previous work, our proposed BrainVis outperforms state of the arts in both semantic fidelity reconstruction and generation quality. The code is available at https://github.com/RomGai/BrainVis.
- Abstract(参考訳): 脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これは、脳波の埋め込みをきめ細かな意味情報と整合させることの難しさや、トレーニングのための大規模な自己収集データセットに大きく依存することなど、脳波からの視覚刺激再構成の既存の作業において、かなりの制限をもたらす。
これらの課題に対処するために、BrainVisと呼ばれる新しいアプローチを提案する。
まず,脳波信号を様々な単位に分割し,学習難易度を高めるため,脳波の時間領域特性を自己監督的に取得する手法を提案する。
また、周波数領域の特徴を利用して脳波表現を強化することを提案する。
次に,脳波の時間-周波数埋め込みとCLIP空間の粗いセマンティクスと微粒なセマンティクスの補間を同時に調整し,一次視覚成分の強調と相互アライメントの困難さを低減する。
最後に,カスケード拡散モデルを用いて画像の再構成を行う。
提案したBrainVisは,従来の研究の10倍のトレーニングデータのみを用いて,セマンティックな忠実度再構築と生成品質の両方において最先端の成果を上げている。
コードはhttps://github.com/RomGai/BrainVis.comで入手できる。
関連論文リスト
- Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - Reconstructing Visual Stimulus Images from EEG Signals Based on Deep
Visual Representation Model [5.483279087074447]
本稿では,脳波信号に基づく新しい画像再構成手法を提案する。
高速スイッチング方式で視覚刺激画像の高認識性を実現するため,視覚刺激画像データセットを構築した。
主エンコーダと従属デコーダからなる深部視覚表現モデル(DVRM)を提案し,視覚刺激を再構成する。
論文 参考訳(メタデータ) (2024-03-11T09:19:09Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - A Knowledge-Driven Cross-view Contrastive Learning for EEG
Representation [48.85731427874065]
本稿では,限られたラベルを持つ脳波から効果的な表現を抽出する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。
KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。
ニューラル情報整合性理論に基づく事前のニューラル知識をモデル化することにより、提案手法は不変かつ相補的なニューラル知識を抽出し、複合表現を生成する。
論文 参考訳(メタデータ) (2023-09-21T08:53:51Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP
for Generic Natural Visual Stimulus Decoding [51.911473457195555]
BrainCLIPはタスクに依存しないfMRIベースの脳復号モデルである。
脳の活動、画像、およびテキストの間のモダリティギャップを埋める。
BrainCLIPは、高い意味的忠実度で視覚刺激を再構築することができる。
論文 参考訳(メタデータ) (2023-02-25T03:28:54Z) - Mind Reader: Reconstructing complex images from brain activities [16.78619734818198]
我々はfMRI(機能的磁気共鳴画像)信号から複雑な画像刺激を再構成することに集中する。
単一の物体や単純な形状で画像を再構成する従来の研究とは異なり、本研究は意味論に富んだイメージ刺激を再構成することを目的としている。
脳の信号を直接画像に翻訳するよりも、追加のテキストモダリティを組み込むことは、再建問題にとって有益である。
論文 参考訳(メタデータ) (2022-09-30T06:32:46Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。