論文の概要: Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification
- arxiv url: http://arxiv.org/abs/2309.04153v2
- Date: Wed, 22 Nov 2023 01:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:26:05.262869
- Title: Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification
- Title(参考訳): 脳波信号を視覚刺激にマッピングする:マッチング対ミスマッチ分類のためのディープラーニングアプローチ
- Authors: Yiqian Yang, Zhengqiao Zhao, Qian Wang, Yan Yang, Jingdong Chen
- Abstract要約: ビデオクリップが脳波信号の興奮応答を誘導するかどうかを分類する「マッチ-vs-mismatch」深層学習モデルを提案する。
提案手法は, 未知の被写体に対して最も精度の高いモデルを実現することができることを示す。
これらの結果は、ニューラル記録に基づくビデオ再構成の開発を促進する可能性がある。
- 参考スコア(独自算出の注目度): 28.186129896907694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to modeling associations between visual stimuli and brain
responses are facing difficulties in handling between-subject variance and
model generalization. Inspired by the recent progress in modeling speech-brain
response, we propose in this work a "match-vs-mismatch" deep learning model to
classify whether a video clip induces excitatory responses in recorded EEG
signals and learn associations between the visual content and corresponding
neural recordings. Using an exclusive experimental dataset, we demonstrate that
the proposed model is able to achieve the highest accuracy on unseen subjects
as compared to other baseline models. Furthermore, we analyze the inter-subject
noise using a subject-level silhouette score in the embedding space and show
that the developed model is able to mitigate inter-subject noise and
significantly reduce the silhouette score. Moreover, we examine the Grad-CAM
activation score and show that the brain regions associated with language
processing contribute most to the model predictions, followed by regions
associated with visual processing. These results have the potential to
facilitate the development of neural recording-based video reconstruction and
its related applications.
- Abstract(参考訳): 視覚刺激と脳の反応のモデリングに関する既存のアプローチは、サブジェクト分散とモデル一般化の間の処理の困難に直面している。
本稿では,映像クリップが脳波信号の興奮応答を誘導するかどうかを分類し,視覚内容と対応する神経記録との関係を学習する「マッチ-vs-mismatch」深層学習モデルを提案する。
実験データセットを用いて,提案モデルは他のベースラインモデルと比較して,未発見の被験者に対して高い精度を達成可能であることを実証する。
さらに,埋め込み空間におけるサブジェクトレベルのシルエットスコアを用いて,サブジェクト間ノイズを解析し,本モデルがサブジェクト間ノイズを緩和し,シルエットスコアを著しく低減できることを示す。
さらに,Grad-CAMアクティベーションスコアについて検討し,言語処理に関連する脳領域がモデル予測に大きく寄与し,視覚処理に関連する領域が続くことを示した。
これらの結果は、ニューラル記録に基づくビデオ再構成とその関連アプリケーションの開発を促進する可能性がある。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - Investigating the Timescales of Language Processing with EEG and Language Models [0.0]
本研究では,事前学習した言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。
テンポラル・レスポンス・ファンクション(TRF)モデルを用いて、神経活動が異なる層にまたがるモデル表現とどのように対応するかを検討する。
分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T12:49:27Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for
In-The-Wild Affect Recognition [4.14099371030604]
本稿では,第3報 ABAW (Affective Behavior Analysis in-the-Wild) 課題について述べる。
再帰性と注意(Recurrence and attention)は、文献で広く使われている2つのシーケンスモデリングメカニズムである。
LSTM-RNNは低コンプレックスCNNバックボーンと組み合わせることでアテンションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-24T18:22:56Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - A shared neural encoding model for the prediction of subject-specific
fMRI response [17.020869686284165]
本稿では,個人レベルでの差分を考慮した共有畳み込みニューラルエンコーディング手法を提案する。
本手法は,視覚刺激や聴覚刺激によって誘発される主観的応答の予測を改善するために,多目的データを活用する。
論文 参考訳(メタデータ) (2020-06-29T04:10:14Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。