論文の概要: SHINE: Sequential Hierarchical Integration Network for EEG and MEG
- arxiv url: http://arxiv.org/abs/2602.23960v1
- Date: Fri, 27 Feb 2026 12:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.41052
- Title: SHINE: Sequential Hierarchical Integration Network for EEG and MEG
- Title(参考訳): Shine: EEGとMEGのためのシークエンシャル階層統合ネットワーク
- Authors: Xiran Xu, Yujie Yan, Xihong Wu, Jing Chen,
- Abstract要約: 本稿では,LibriBrainコンペティション2025における音声検出タスクについて述べる。
我々は、LibriVoxオーディオブックを聴く1人の参加者から50時間以上の脳磁図(MEG)信号を使用します。
本稿では,脳波とMEGのための逐次階層統合ネットワーク(Sequential Hierarchical Integration Network for EEG and MEG,SHINE)を提案する。
- 参考スコア(独自算出の注目度): 18.995052874819248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How natural speech is represented in the brain constitutes a major challenge for cognitive neuroscience, with cortical envelope-following responses playing a central role in speech decoding. This paper presents our approach to the Speech Detection task in the LibriBrain Competition 2025, utilizing over 50 hours of magnetoencephalography (MEG) signals from a single participant listening to LibriVox audiobooks. We introduce the proposed Sequential Hierarchical Integration Network for EEG and MEG (SHINE) to reconstruct the binary speech-silence sequences from MEG signals. In the Extended Track, we further incorporated auxiliary reconstructions of speech envelopes and Mel spectrograms to enhance training. Ensemble methods combining SHINE with baselines (BrainMagic, AWavNet, ConvConcatNet) achieved F1-macro scores of 0.9155 (Standard Track) and 0.9184 (Extended Track) on the leaderboard test set.
- Abstract(参考訳): 脳内の自然言語がどのように表現されるかは、認知神経科学の大きな課題となり、皮質のエンベロープ追跡反応は、音声復号において中心的な役割を果たす。
本稿では,LibriVox音声ブックを聴く単一参加者からの50時間以上の脳磁図(MEG)信号を利用して,2025年のLibriBrainコンペティションにおける音声検出タスクを提案する。
本稿では,脳波とMEGのための逐次階層統合ネットワーク(Sequential Hierarchical Integration Network for EEG and MEG,SHINE)を提案する。
拡張トラックでは,音声エンベロープとメルスペクトログラムの補助的再構成を取り入れて訓練を増強した。
ShiNEとベースライン(BrainMagic、AWavNet、ConvConcatNet)を組み合わせたアンサンブル法は、リーダーボードテストセットで0.9155(Standard Track)と0.9184(Extended Track)のF1マクロスコアを達成した。
関連論文リスト
- MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification [1.0896567381206717]
We present Conformer-based decoders for the LibriBrain 2025 PNPL competition。
提案手法は,306チャネルのMEG信号にコンパクトなコンバータを適応させる。
音声検出のために、MEG指向のSpecAugmentは、MEG固有の拡張を初めて探求した。
音素分類では,逆平方根クラス重み付けと動的グルーピングローダを用いた。
論文 参考訳(メタデータ) (2025-12-01T09:25:22Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction [36.38186261968484]
本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。
テキスト音素列を同時に復号する補助音素予測器を用いる。
論文 参考訳(メタデータ) (2025-01-08T21:11:35Z) - Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。
提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。
音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文 参考訳(メタデータ) (2024-06-12T21:08:12Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。