論文の概要: EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More
- arxiv url: http://arxiv.org/abs/2407.01884v1
- Date: Tue, 2 Jul 2024 02:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:03:34.758486
- Title: EIT-1M: One Million EEG-Image-Text Pairs for Human Visual-textual Recognition and More
- Title(参考訳): EIT-1M:人間の視覚テキスト認識などのための100万個の脳波画像テキストペア
- Authors: Xu Zheng, Ling Wang, Kanghao Chen, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang,
- Abstract要約: 我々は,100万以上のEEG-image-textペアを持つ,EIT-1Mという新しい大規模マルチモーダルデータセットを提案する。
我々のデータセットは、マルチモーダル情報の同時処理において、脳活動を反映する能力に優れている。
我々は、さまざまなカテゴリや参加者のマルチモーダル刺激から得られる脳波データの詳細な分析と、透明性のためのデータ品質スコアを提供する。
- 参考スコア(独自算出の注目度): 10.918317402874665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, electroencephalography (EEG) signals have been actively incorporated to decode brain activity to visual or textual stimuli and achieve object recognition in multi-modal AI. Accordingly, endeavors have been focused on building EEG-based datasets from visual or textual single-modal stimuli. However, these datasets offer limited EEG epochs per category, and the complex semantics of stimuli presented to participants compromise their quality and fidelity in capturing precise brain activity. The study in neuroscience unveils that the relationship between visual and textual stimulus in EEG recordings provides valuable insights into the brain's ability to process and integrate multi-modal information simultaneously. Inspired by this, we propose a novel large-scale multi-modal dataset, named EIT-1M, with over 1 million EEG-image-text pairs. Our dataset is superior in its capacity of reflecting brain activities in simultaneously processing multi-modal information. To achieve this, we collected data pairs while participants viewed alternating sequences of visual-textual stimuli from 60K natural images and category-specific texts. Common semantic categories are also included to elicit better reactions from participants' brains. Meanwhile, response-based stimulus timing and repetition across blocks and sessions are included to ensure data diversity. To verify the effectiveness of EIT-1M, we provide an in-depth analysis of EEG data captured from multi-modal stimuli across different categories and participants, along with data quality scores for transparency. We demonstrate its validity on two tasks: 1) EEG recognition from visual or textual stimuli or both and 2) EEG-to-visual generation.
- Abstract(参考訳): 近年、脳波(EEG)信号は視覚的またはテキスト的刺激に脳活動をデコードし、マルチモーダルAIで物体認識を実現するために積極的に組み込まれている。
そのため、視覚的またはテキスト的な単一モーダル刺激からEEGベースのデータセットを構築することに注力してきた。
しかし、これらのデータセットは、カテゴリごとの脳波のエポックに制限を与え、参加者に提示される刺激の複雑な意味は、正確な脳活動の取得における品質と忠実さを損なう。
神経科学の研究は、脳波記録における視覚刺激とテキスト刺激の関係が、マルチモーダル情報を同時に処理し統合する脳の能力に関する貴重な洞察を与えることを明らかにした。
そこで我々は,100万以上のEEG-image-textペアを持つ,EIT-1Mという新しい大規模マルチモーダルデータセットを提案する。
我々のデータセットは、マルチモーダル情報の同時処理において、脳活動を反映する能力に優れている。
これを実現するために,60Kの自然画像とカテゴリー別テキストから視覚・テキスト刺激の交互配列を観察しながら,データペアを収集した。
一般的な意味カテゴリーは、参加者の脳からのより良い反応を引き出すためにも含まれる。
一方、データ多様性を保証するために、ブロックやセッション間の応答ベースの刺激タイミングと繰り返しが含まれる。
EIT-1Mの有効性を検証するため、さまざまなカテゴリや参加者のマルチモーダル刺激から収集した脳波データを、透明性のためのデータ品質スコアとともに詳細に分析する。
その妥当性を2つの課題に示す。
1【視覚的・テキスト的刺激の有無による脳波の認識】
2)脳波対視覚発生
関連論文リスト
- Mind's Eye: Image Recognition by EEG via Multimodal Similarity-Keeping Contrastive Learning [2.087148326341881]
本稿では,ゼロショット脳波画像分類のためのMUltimodal similarity-keeper contrastivE学習フレームワークを提案する。
我々は、脳波信号に適した多変量時系列エンコーダを開発し、正規化コントラスト脳波画像事前学習の有効性を評価する。
本手法は,200方向ゼロショット画像分類において,トップ1の精度が19.3%,トップ5の精度が48.8%の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T16:42:23Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via
Image Reconstruction [8.206564266319388]
脳波信号から視覚刺激を再構成するための新しい手法を提案する。
脳波信号に自己監督的アプローチを適用して脳波の時間領域特性を求める。
また,脳波の時間周波数埋め込みをCLIP空間の粗くきめ細かなセマンティクスと整合させる。
提案したBrainVisは,意味的忠実度復元と生成品質の両面で,芸術の状態を上回ります。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Learning Robust Deep Visual Representations from EEG Brain Recordings [13.768240137063428]
本研究は,脳波に基づく深部表現の頑健な学習を行うための2段階の手法を提案する。
ディープラーニングアーキテクチャを用いて,3つのデータセットにまたがる特徴抽出パイプラインの一般化性を実証する。
本稿では,未知の画像を脳波空間に変換し,近似を用いて再構成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-25T10:26:07Z) - A Knowledge-Driven Cross-view Contrastive Learning for EEG
Representation [48.85731427874065]
本稿では,限られたラベルを持つ脳波から効果的な表現を抽出する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。
KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。
ニューラル情報整合性理論に基づく事前のニューラル知識をモデル化することにより、提案手法は不変かつ相補的なニューラル知識を抽出し、複合表現を生成する。
論文 参考訳(メタデータ) (2023-09-21T08:53:51Z) - Decoding Natural Images from EEG for Object Recognition [8.411976038504589]
本稿では,脳波信号からの学習画像表現の実現可能性を示すための自己教師型フレームワークを提案する。
我々はトップ1の精度を15.6%、トップ5の精度を42.8%で達成し、200ウェイゼロショットタスクに挑戦する。
これらの発見は、実世界のシナリオにおける神経復号と脳-コンピュータインタフェースの貴重な洞察をもたらす。
論文 参考訳(メタデータ) (2023-08-25T08:05:37Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - See What You See: Self-supervised Cross-modal Retrieval of Visual
Stimuli from Brain Activity [37.837710340954374]
本稿では2つのモダリティのデータをアノテーションとは対照的に相関する1段階の脳波視覚検索パラダイムを提案する。
提案手法は,既存の手法では不可能な,インスタンスレベルの脳波視覚検索タスクを完了させる。
論文 参考訳(メタデータ) (2022-08-07T08:11:15Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。