論文の概要: EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More
- arxiv url: http://arxiv.org/abs/2407.01884v1
- Date: Tue, 2 Jul 2024 02:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:03:34.758486
- Title: EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More
- Title(参考訳): EIT-1M:人間の視覚テキスト認識などのための100万個の脳波画像テキストペア
- Authors: Xu Zheng, Ling Wang, Kanghao Chen, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang,
- Abstract要約: 我々は,100万以上のEEG-image-textペアを持つ,EIT-1Mという新しい大規模マルチモーダルデータセットを提案する。
我々のデータセットは、マルチモーダル情報の同時処理において、脳活動を反映する能力に優れている。
我々は、さまざまなカテゴリや参加者のマルチモーダル刺激から得られる脳波データの詳細な分析と、透明性のためのデータ品質スコアを提供する。
- 参考スコア(独自算出の注目度): 10.918317402874665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, electroencephalography (EEG) signals have been actively incorporated to decode brain activity to visual or textual stimuli and achieve object recognition in multi-modal AI. Accordingly, endeavors have been focused on building EEG-based datasets from visual or textual single-modal stimuli. However, these datasets offer limited EEG epochs per category, and the complex semantics of stimuli presented to participants compromise their quality and fidelity in capturing precise brain activity. The study in neuroscience unveils that the relationship between visual and textual stimulus in EEG recordings provides valuable insights into the brain's ability to process and integrate multi-modal information simultaneously. Inspired by this, we propose a novel large-scale multi-modal dataset, named EIT-1M, with over 1 million EEG-image-text pairs. Our dataset is superior in its capacity of reflecting brain activities in simultaneously processing multi-modal information. To achieve this, we collected data pairs while participants viewed alternating sequences of visual-textual stimuli from 60K natural images and category-specific texts. Common semantic categories are also included to elicit better reactions from participants' brains. Meanwhile, response-based stimulus timing and repetition across blocks and sessions are included to ensure data diversity. To verify the effectiveness of EIT-1M, we provide an in-depth analysis of EEG data captured from multi-modal stimuli across different categories and participants, along with data quality scores for transparency. We demonstrate its validity on two tasks: 1) EEG recognition from visual or textual stimuli or both and 2) EEG-to-visual generation.
- Abstract(参考訳): 近年、脳波(EEG)信号は視覚的またはテキスト的刺激に脳活動をデコードし、マルチモーダルAIで物体認識を実現するために積極的に組み込まれている。
そのため、視覚的またはテキスト的な単一モーダル刺激からEEGベースのデータセットを構築することに注力してきた。
しかし、これらのデータセットは、カテゴリごとの脳波のエポックに制限を与え、参加者に提示される刺激の複雑な意味は、正確な脳活動の取得における品質と忠実さを損なう。
神経科学の研究は、脳波記録における視覚刺激とテキスト刺激の関係が、マルチモーダル情報を同時に処理し統合する脳の能力に関する貴重な洞察を与えることを明らかにした。
そこで我々は,100万以上のEEG-image-textペアを持つ,EIT-1Mという新しい大規模マルチモーダルデータセットを提案する。
我々のデータセットは、マルチモーダル情報の同時処理において、脳活動を反映する能力に優れている。
これを実現するために,60Kの自然画像とカテゴリー別テキストから視覚・テキスト刺激の交互配列を観察しながら,データペアを収集した。
一般的な意味カテゴリーは、参加者の脳からのより良い反応を引き出すためにも含まれる。
一方、データ多様性を保証するために、ブロックやセッション間の応答ベースの刺激タイミングと繰り返しが含まれる。
EIT-1Mの有効性を検証するため、さまざまなカテゴリや参加者のマルチモーダル刺激から収集した脳波データを、透明性のためのデータ品質スコアとともに詳細に分析する。
その妥当性を2つの課題に示す。
1【視覚的・テキスト的刺激の有無による脳波の認識】
2)脳波対視覚発生
関連論文リスト
- Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - A Knowledge-Driven Cross-view Contrastive Learning for EEG
Representation [48.85731427874065]
本稿では,限られたラベルを持つ脳波から効果的な表現を抽出する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。
KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。
ニューラル情報整合性理論に基づく事前のニューラル知識をモデル化することにより、提案手法は不変かつ相補的なニューラル知識を抽出し、複合表現を生成する。
論文 参考訳(メタデータ) (2023-09-21T08:53:51Z) - Decoding Natural Images from EEG for Object Recognition [8.411976038504589]
本稿では,脳波信号からの学習画像表現の実現可能性を示すための自己教師型フレームワークを提案する。
我々はトップ1の精度を15.6%、トップ5の精度を42.8%で達成し、200ウェイゼロショットタスクに挑戦する。
これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。
論文 参考訳(メタデータ) (2023-08-25T08:05:37Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - See What You See: Self-supervised Cross-modal Retrieval of Visual
Stimuli from Brain Activity [37.837710340954374]
本稿では2つのモダリティのデータをアノテーションとは対照的に相関する1段階の脳波視覚検索パラダイムを提案する。
提案手法は,既存の手法では不可能な,インスタンスレベルの脳波視覚検索タスクを完了させる。
論文 参考訳(メタデータ) (2022-08-07T08:11:15Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。