論文の概要: See What You See: Self-supervised Cross-modal Retrieval of Visual
Stimuli from Brain Activity
- arxiv url: http://arxiv.org/abs/2208.03666v3
- Date: Thu, 11 Aug 2022 01:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 11:13:14.897934
- Title: See What You See: Self-supervised Cross-modal Retrieval of Visual
Stimuli from Brain Activity
- Title(参考訳): 脳活動からの視覚刺激の自己教師付きクロスモーダル検索
- Authors: Zesheng Ye, Lina Yao, Yu Zhang, Sylvia Gustin
- Abstract要約: 本稿では2つのモダリティのデータをアノテーションとは対照的に相関する1段階の脳波視覚検索パラダイムを提案する。
提案手法は,既存の手法では不可能な,インスタンスレベルの脳波視覚検索タスクを完了させる。
- 参考スコア(独自算出の注目度): 37.837710340954374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies demonstrate the use of a two-stage supervised framework to
generate images that depict human perception to visual stimuli from EEG,
referring to EEG-visual reconstruction. They are, however, unable to reproduce
the exact visual stimulus, since it is the human-specified annotation of
images, not their data, that determines what the synthesized images are.
Moreover, synthesized images often suffer from noisy EEG encodings and unstable
training of generative models, making them hard to recognize. Instead, we
present a single-stage EEG-visual retrieval paradigm where data of two
modalities are correlated, as opposed to their annotations, allowing us to
recover the exact visual stimulus for an EEG clip. We maximize the mutual
information between the EEG encoding and associated visual stimulus through
optimization of a contrastive self-supervised objective, leading to two
additional benefits. One, it enables EEG encodings to handle visual classes
beyond seen ones during training, since learning is not directed at class
annotations. In addition, the model is no longer required to generate every
detail of the visual stimulus, but rather focuses on cross-modal alignment and
retrieves images at the instance level, ensuring distinguishable model output.
Empirical studies are conducted on the largest single-subject EEG dataset that
measures brain activities evoked by image stimuli. We demonstrate the proposed
approach completes an instance-level EEG-visual retrieval task which existing
methods cannot. We also examine the implications of a range of EEG and visual
encoder structures. Furthermore, for a mostly studied semantic-level EEG-visual
classification task, despite not using class annotations, the proposed method
outperforms state-of-the-art supervised EEG-visual reconstruction approaches,
particularly on the capability of open class recognition.
- Abstract(参考訳): 最近の研究では、脳波からの視覚刺激に対する人間の知覚を表現した画像を生成するために2段階の教師付きフレームワークの使用が実証されている。
しかし、合成された画像が何であるかを決定するデータではなく、人間の指定した画像の注釈であるため、正確な視覚刺激を再現できない。
さらに、合成画像は、しばしばノイズの多い脳波エンコーディングや、生成モデルの不安定な訓練に悩まされ、認識が困難になる。
そこで我々は,2つのモダリティのデータをアノテーションとは対照的に関連付け,脳波クリップの正確な視覚刺激を復元する,単一段階の脳波視覚検索パラダイムを提案する。
脳波エンコーディングと関連する視覚刺激の相互情報をコントラスト的自己監督目標の最適化により最大化し、さらに2つの利点をもたらす。
ひとつは、学習がクラスアノテーションを指向していないため、トレーニング中に見られるもの以上の視覚クラスをEEGエンコーディングで処理できることだ。
さらに、このモデルはもはや視覚刺激の全詳細を生成する必要はなく、むしろクロスモーダルアライメントに焦点を当て、インスタンスレベルで画像を取得し、区別可能なモデル出力を確実にする。
画像刺激によって誘発される脳活動を測定する最大の単射脳波データセットについて実証的研究を行った。
提案手法は,既存の手法では不可能であるeeg-visual searchタスクを完了させる。
また,脳波および視覚エンコーダ構造の範囲についても検討した。
さらに、クラスアノテーションを使用しないにもかかわらず、主に研究されたセマンティックレベルの脳波視覚分類タスクにおいて、提案手法は最先端の教師付き脳波視覚再構成アプローチ、特にオープンクラス認識能力に優れる。
関連論文リスト
- NECOMIMI: Neural-Cognitive Multimodal EEG-informed Image Generation with Diffusion Models [0.0]
NECOMIMIは、高度な拡散モデルを用いて、脳波信号から直接画像を生成する新しいフレームワークを導入した。
提案したNERV EEGエンコーダは、複数のゼロショット分類タスクにまたがる最先端(SoTA)性能を示す。
我々は、脳波画像評価に適した新しい指標としてCATスコアを導入し、 ThingsEEGデータセット上でベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-01T14:05:30Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - Seeing through the Brain: Image Reconstruction of Visual Perception from
Human Brain Signals [27.92796103924193]
脳波信号から視覚刺激像を再構成するための包括的パイプラインNeuroImagenを提案する。
我々は、与えられた脳波データから複数の粒度の出力を引き出すために、新しいマルチレベル知覚情報デコーディングを組み込んだ。
論文 参考訳(メタデータ) (2023-07-27T12:54:16Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。