論文の概要: EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors
- arxiv url: http://arxiv.org/abs/2606.01884v2
- Date: Tue, 09 Jun 2026 14:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.512202
- Title: EVA-Net: Subject-Independent EEG Motor Decoding with Video-Derived Motor Priors
- Title(参考訳): EVA-Net:ビデオ駆動型モータプリミティブを用いた主観非依存型脳波モータ復号
- Authors: Ziyuan Li, Yueyu Sun, Yimeng Zhang,
- Abstract要約: EVA-Netは、主観非依存の脳波モータデコーディングのセマンティックプリエントとしてアクションビデオを使用する2段階のフレームワークである。
EEGMMIでは8.66%のLOSO精度向上を含む、強い被写体非依存の復号性能を実現している。
- 参考スコア(独自算出の注目度): 9.93845501317941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practical non-invasive Brain-Computer Interface (BCI) systems require EEG decoders with strong cross-subject generalization and minimal calibration. However, inter-subject variability and signal non-stationarity often entangle motor semantics with subject-specific noise, limiting subject-independent decoding. Recent multimodal approaches use text as a semantic anchor, yet text provides sparse and static supervision for inherently dynamic motor processes. To address this issue, we propose EVA-Net, a two-stage framework that uses action videos as semantic priors for subject-independent EEG motor decoding. In the first stage, EEG and video features are aligned in a shared space using cross-modal and supervised contrastive objectives to reduce subject-specific variation. In the second stage, video category prototypes and knowledge distillation transfer video-derived priors to an EEG-only classifier without adding inference overhead. Experiments on two public datasets show that EVA-Net achieves strong subject-independent decoding performance, including an 8.66% LOSO accuracy gain on EEGMMI. Ablation results further suggest that video provides a more effective semantic anchor than the text baseline considered in this work.
- Abstract(参考訳): 実用的な非侵襲型Brain-Computer Interface (BCI) システムは、強いクロスオブジェクトの一般化と最小限のキャリブレーションを持つEEGデコーダを必要とする。
しかし、物体間の変動や信号の非定常性は、運動意味論を被写体固有のノイズと絡めて、被写体非依存の復号を制限している。
最近のマルチモーダルアプローチでは、テキストをセマンティックアンカーとして使用するが、テキストは本質的にダイナミックなモータープロセスに対してスパースで静的な監督を提供する。
この問題に対処するために,動作ビデオを主観非依存の脳波モータデコーディングのセマンティックプリエントとして利用する2段階フレームワークであるEVA-Netを提案する。
第1段階では、脳波とビデオの機能は、クロスモーダルおよび教師付きコントラスト目的を用いて共有空間に配置され、主観的変動を低減する。
第2段階では、推論オーバーヘッドを加味せずに、ビデオカテゴリのプロトタイプと、脳波のみの分類器にビデオから派生した知識蒸留転送ビデオが使用される。
2つの公開データセットの実験により、EVA-Netは、EEGMMIの8.66%のLOSO精度向上を含む、強い主題に依存しないデコード性能を達成することが示された。
アブレーションの結果は、ビデオが本研究で考慮されたテキストベースラインよりも効果的なセマンティックアンカーを提供することを示している。
関連論文リスト
- FAST-ME: Foundation-aware Adaptive Stopping for Motion Estimation for Efficient IoT Video Analysis [0.0]
本研究では,映像フレーム間の差分評価に基づくブロック動作推定アルゴリズムを提案する。
また、ファンデーションモデル(FM)と近代的な意思決定プロセスを統合する意味認識型動き推定フレームワークを提案する。
提案手法は,精度の低下を最小限に抑えながら歪みを著しく低減し,セマンティックカバレッジを向上する。
論文 参考訳(メタデータ) (2026-05-22T09:41:51Z) - HOI-aware Adaptive Network for Weakly-supervised Action Segmentation [64.63922024617493]
AdaAct と呼ばれる HOI 対応ネットワークを提案する。
我々は、時間的大局的だが空間的局所的な人間-物体相互作用(HOI)をアクションセグメンテーションのためのビデオレベルの事前知識として活用する。
論文 参考訳(メタデータ) (2026-04-29T02:11:51Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection With Multichannel Audio and Multiscale Visual Cues [1.0705399532413615]
アイドリング車両検出(IVD)は、監視ビデオとマルチチャネルオーディオを使用して、ピックアップゾーン内の車両のローカライズと分類を行う。
IVDは3つの課題に直面している: (i) 視覚的手がかりと音声パターンの不均一性、 (ii) 多分解能検出を必要とする大規模なボックススケール変動、 (iii) 複合検出ヘッドによるトレーニング不安定性。
HAVT-IVDは視覚的特徴ピラミッドと切り離された頭部を備えた異種認識ネットワークである。
論文 参考訳(メタデータ) (2025-04-15T21:10:17Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。