論文の概要: MindCine: Multimodal EEG-to-Video Reconstruction with Large-Scale Pretrained Models
- arxiv url: http://arxiv.org/abs/2601.18192v1
- Date: Mon, 26 Jan 2026 06:20:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.701289
- Title: MindCine: Multimodal EEG-to-Video Reconstruction with Large-Scale Pretrained Models
- Title(参考訳): MindCine: 大規模事前学習モデルによるマルチモーダル脳波ビデオ再構成
- Authors: Tian-Yi Zhou, Xuan-Hao Liu, Bao-Liang Lu, Wei-Long Zheng,
- Abstract要約: 本稿では,限られたデータを用いた高忠実度ビデオ再構成を実現するための新しいフレームワークであるMindCineを提案する。
トレーニング段階では、テキスト以外のモダリティを組み込むために、マルチモーダルな共同学習戦略を採用している。
我々のモデルは質的にも量的にも最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 36.24050001829925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing human dynamic visual perception from electroencephalography (EEG) signals is of great research significance since EEG's non-invasiveness and high temporal resolution. However, EEG-to-video reconstruction remains challenging due to: 1) Single Modality: existing studies solely align EEG signals with the text modality, which ignores other modalities and are prone to suffer from overfitting problems; 2) Data Scarcity: current methods often have difficulty training to converge with limited EEG-video data. To solve the above problems, we propose a novel framework MindCine to achieve high-fidelity video reconstructions on limited data. We employ a multimodal joint learning strategy to incorporate beyond-text modalities in the training stage and leverage a pre-trained large EEG model to relieve the data scarcity issue for decoding semantic information, while a Seq2Seq model with causal attention is specifically designed for decoding perceptual information. Extensive experiments demonstrate that our model outperforms state-of-the-art methods both qualitatively and quantitatively. Additionally, the results underscore the effectiveness of the complementary strengths of different modalities and demonstrate that leveraging a large-scale EEG model can further enhance reconstruction performance by alleviating the challenges associated with limited data.
- Abstract(参考訳): 脳波(EEG)信号から人間のダイナミックな視覚知覚を再構築することは、脳波の非侵襲性と時間分解能が高いため、非常に重要な研究である。
しかし、脳波とビデオの再構成は依然として困難である。
1)単一モダリティ:既存の研究は、他のモダリティを無視し、過度に適合する問題に苦しむ傾向にある、脳波信号とテキストモダリティのみを一致させる。
2)データスカシティ:現在の手法では,限られた脳波映像データに収束する訓練が難しい場合が多い。
上記の問題を解決するために,制限データを用いた高忠実度映像再構成を実現するための新しいフレームワークであるMindCineを提案する。
我々は、学習段階において、テキストのモダリティを余分に取り入れ、事前学習された大脳波モデルを利用して意味情報を復号化するためのデータ不足を解消し、因果的注意を持つSeq2Seqモデルは、知覚情報を復号化するために特別に設計されている。
大規模な実験により、我々のモデルは定性的かつ定量的に最先端の手法より優れていることが示された。
さらに, 異なるモーダルの相補的強度の有効性を実証し, 大規模脳波モデルを活用することで, 限られたデータにかかわる課題を緩和し, 再構築性能をさらに向上させることができることを示した。
関連論文リスト
- RAICL: Retrieval-Augmented In-Context Learning for Vision-Language-Model Based EEG Seizure Detection [12.189806103703887]
本稿では,大規模な視覚言語モデル(VLM)を用いて脳波の波形プロットを解析することにより,従来の信号ベースデコーディングからパラダイムシフトを提案する。
本稿では,脳波信号の非定常性に対処するため,Retrieval-Augmented In-Context Learning (RAICL)アプローチを提案する。
論文 参考訳(メタデータ) (2026-01-25T13:58:31Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - Direct Dual-Energy CT Material Decomposition using Model-based Denoising Diffusion Model [105.95160543743984]
本稿では,Dual-Energy Decomposition Model-based Diffusion (DEcomp-MoD) と呼ばれる深層学習手法を提案する。
Decomp-MoDは、教師なしスコアベースモデルと教師なしディープラーニングネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-24T01:00:06Z) - Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - BrainVis: Exploring the Bridge between Brain and Visual Signals via Image Reconstruction [7.512223286737468]
脳信号からの視覚刺激の分析と再構成は、人間の視覚系の理解を効果的に進める。
しかし、脳波信号は複雑であり、大きなノイズを含む。
これにより、脳波からの視覚刺激再建の既存の作品にかなりの制限が生じる。
我々はこれらの課題に対処するためにBrainVisと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:49:11Z) - hvEEGNet: exploiting hierarchical VAEs on EEG data for neuroscience
applications [3.031375888004876]
脳波の既存のDLベースのモデリング手法に2つの課題がある。
被験者間の高いばらつきと低信号対雑音比は、脳波データの良好な品質を確保するのを困難にしている。
本稿では,高忠実度脳波再構成問題を対象とした2つの変分オートエンコーダモデル,すなわちvEEGNet-ver3とhvEEGNetを提案する。
論文 参考訳(メタデータ) (2023-11-20T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。