論文の概要: Integrating Language-Image Prior into EEG Decoding for Cross-Task Zero-Calibration RSVP-BCI
- arxiv url: http://arxiv.org/abs/2501.02841v1
- Date: Mon, 06 Jan 2025 08:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:08.989655
- Title: Integrating Language-Image Prior into EEG Decoding for Cross-Task Zero-Calibration RSVP-BCI
- Title(参考訳): クロスタスクゼロキャリブレーションRSVP-BCIのための言語画像の脳波復号への統合
- Authors: Xujin Li, Wei Wei, Shuang Qiu, Xinyi Zhang, Fu Li, Huiguang He,
- Abstract要約: 現在のRSVP復号法は単一のRSVPタスク内における脳波信号の復号化に有効であるが,異なるRSVPタスクに直接適用した場合,その復号性能は著しく低下する。
本研究では,クロスタスクゼロ校正RSVP復号性能の向上を目的とした。
- 参考スコア(独自算出の注目度): 33.34831504592848
- License:
- Abstract: Rapid Serial Visual Presentation (RSVP)-based Brain-Computer Interface (BCI) is an effective technology used for information detection by detecting Event-Related Potentials (ERPs). The current RSVP decoding methods can perform well in decoding EEG signals within a single RSVP task, but their decoding performance significantly decreases when directly applied to different RSVP tasks without calibration data from the new tasks. This limits the rapid and efficient deployment of RSVP-BCI systems for detecting different categories of targets in various scenarios. To overcome this limitation, this study aims to enhance the cross-task zero-calibration RSVP decoding performance. First, we design three distinct RSVP tasks for target image retrieval and build an open-source dataset containing EEG signals and corresponding stimulus images. Then we propose an EEG with Language-Image Prior fusion Transformer (ELIPformer) for cross-task zero-calibration RSVP decoding. Specifically, we propose a prompt encoder based on the language-image pre-trained model to extract language-image features from task-specific prompts and stimulus images as prior knowledge for enhancing EEG decoding. A cross bidirectional attention mechanism is also adopted to facilitate the effective feature fusion and alignment between the EEG and language-image features. Extensive experiments demonstrate that the proposed model achieves superior performance in cross-task zero-calibration RSVP decoding, which promotes the RSVP-BCI system from research to practical application.
- Abstract(参考訳): ラピッドシリアル・ビジュアル・プレゼンテーション(Rapid Serial Visual Presentation, RSVP)は、事象関連電位(ERP)を検出して情報を検出するための有効な技術である。
現在のRSVP復号法は単一のRSVPタスク内における脳波信号の復号化に有効であるが,その復号化性能は,新たなタスクの校正データを使わずに,異なるRSVPタスクに直接適用した場合に著しく低下する。
これにより、RSVP-BCIシステムの迅速かつ効率的な配置が制限され、様々なシナリオにおいて異なるカテゴリのターゲットを検出する。
この制限を克服するため,本研究では,クロスタスクゼロ校正RSVP復号性能の向上を目的とする。
まず、ターゲット画像検索のための3つの異なるRSVPタスクを設計し、脳波信号と対応する刺激画像を含むオープンソースデータセットを構築する。
次に,言語-画像優先融合変換器 (ELIPformer) を用いたマルチタスクゼロ校正RSVPデコーディングのためのEEGを提案する。
具体的には,脳波復号化のための事前知識として,タスク固有のプロンプトと刺激画像から言語画像の特徴を抽出する言語画像事前学習モデルに基づくプロンプトエンコーダを提案する。
また、脳波と言語画像の効果的な融合とアライメントを容易にするために、双方向の注意機構も採用されている。
拡張実験により,提案手法は,RSVP-BCIシステムを研究から実用化まで促進するクロスタスクゼロキャリブレーションRSVPデコーディングにおいて,優れた性能を発揮することが示された。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding [15.000487099591776]
RSVP-based Brain-Computer Interface (BCI) は脳波(EEG)信号を用いた標的探索のための効率的な技術である。
従来の復号法は、新しい被験者からのかなりの量のトレーニングデータに依存している。
そこで本研究では,既存の対象データから学習したモデルの知識を高速に伝達し,新たな対象データからデコードする対象特化アダプタを提案する。
論文 参考訳(メタデータ) (2024-01-12T03:18:51Z) - UPOCR: Towards Unified Pixel-Level OCR Interface [36.966005829678124]
We propose UPOCR, a simple-yet- effective generalist model for Unified Pixel-level OCR interface。
具体的には,多様なOCRタスクのパラダイムをイメージ・ツー・イメージ変換として,アーキテクチャを視覚変換器(ViT)ベースのエンコーダ・デコーダとして統一する。
テキスト除去、テキストセグメンテーション、改ざんテキスト検出を含む3つの画素レベルのOCRタスクで実験を行った。
論文 参考訳(メタデータ) (2023-12-05T11:53:17Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Streaming End-to-End Multilingual Speech Recognition with Joint Language
Identification [14.197869575012925]
本稿では、フレーム単位の言語識別子(LID)予測器を統合することにより、カスケードエンコーダに基づくリカレントニューラルネットワークトランスデューサ(RNN-T)モデルの構造を変更することを提案する。
カスケードエンコーダ付きRNN-Tは、右コンテキストのないファーストパス復号法を用いて低レイテンシでストリーミングASRを実現し、右コンテキストの長いセカンドパス復号法を用いて低ワード誤り率(WER)を実現する。
9言語ローカライズされた音声検索データセットの実験結果から,提案手法は平均96.2%のLID予測精度と2次パスWERを実現していることがわかった。
論文 参考訳(メタデータ) (2022-09-13T15:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。