論文の概要: Decoding visual brain representations from electroencephalography
through Knowledge Distillation and latent diffusion models
- arxiv url: http://arxiv.org/abs/2309.07149v1
- Date: Fri, 8 Sep 2023 09:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-17 13:40:12.239977
- Title: Decoding visual brain representations from electroencephalography
through Knowledge Distillation and latent diffusion models
- Title(参考訳): 知識蒸留と潜在拡散モデルによる脳波からの視覚脳表現の復号
- Authors: Matteo Ferrante, Tommaso Boccato, Stefano Bargione, Nicola Toschi
- Abstract要約: 本稿では,脳波(EEG)データを用いて,ImageNetデータセットから画像の分類と再構成を行う革新的な手法を提案する。
我々は6人の被験者の脳波記録を分析し、それぞれ40のユニークな意味カテゴリーにまたがる50の画像に暴露した。
我々は,事前学習した潜伏拡散モデルに基づく画像再構成機構を導入し,脳波を誘発した画像の推定を可能とした。
- 参考スコア(独自算出の注目度): 0.12289361708127873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding visual representations from human brain activity has emerged as a
thriving research domain, particularly in the context of brain-computer
interfaces. Our study presents an innovative method that employs to classify
and reconstruct images from the ImageNet dataset using electroencephalography
(EEG) data from subjects that had viewed the images themselves (i.e. "brain
decoding"). We analyzed EEG recordings from 6 participants, each exposed to 50
images spanning 40 unique semantic categories. These EEG readings were
converted into spectrograms, which were then used to train a convolutional
neural network (CNN), integrated with a knowledge distillation procedure based
on a pre-trained Contrastive Language-Image Pre-Training (CLIP)-based image
classification teacher network. This strategy allowed our model to attain a
top-5 accuracy of 80%, significantly outperforming a standard CNN and various
RNN-based benchmarks. Additionally, we incorporated an image reconstruction
mechanism based on pre-trained latent diffusion models, which allowed us to
generate an estimate of the images which had elicited EEG activity. Therefore,
our architecture not only decodes images from neural activity but also offers a
credible image reconstruction from EEG only, paving the way for e.g. swift,
individualized feedback experiments. Our research represents a significant step
forward in connecting neural signals with visual cognition.
- Abstract(参考訳): 視覚表現を人間の脳活動から復号することは、特に脳-コンピューターインタフェースの文脈において、活発な研究領域として現れてきた。
本研究では,画像自体を見た被験者の脳波(eeg)データを用いて,imagenetデータセットから画像の分類と再構成を行う革新的な手法を提案する。
被験者6名の脳波記録を分析した結果,それぞれ40種類の意味カテゴリーにまたがる50枚の画像が得られた。
これらの脳波の読み出しは、その後、畳み込みニューラルネットワーク(CNN)のトレーニングに使用されるスペクトログラムに変換され、CLIP(Contrastive Language- Image Pre-Training)ベースの画像分類教師ネットワークに基づく知識蒸留と統合された。
この戦略により、標準cnnおよび様々なrnnベースのベンチマークを著しく上回る80%のtop-5精度を達成することができた。
さらに,事前学習した潜在拡散モデルに基づく画像再構成機構を導入し,脳波活動が誘発された画像の推定を可能とした。
したがって、我々のアーキテクチャは、神経活動から画像をデコードするだけでなく、脳波のみから信頼できる画像再構成を提供する。
私たちの研究は、神経信号と視覚認知をつなぐための重要な一歩を示しています。
関連論文リスト
- Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Brain informed transfer learning for categorizing construction hazards [0.0]
この研究は、市販の脳-コンピュータインターフェースを通じて記録された人間の脳信号から学習することで、機械学習アルゴリズムを改善するためのステップである。
より一般化された視覚認識システムは、この「ループ内の人間」のアプローチに基づいて効果的に開発することができる。
論文 参考訳(メタデータ) (2022-11-17T19:41:04Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。