論文の概要: BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation
- arxiv url: http://arxiv.org/abs/2410.14971v2
- Date: Mon, 19 May 2025 08:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 21:29:33.294937
- Title: BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation
- Title(参考訳): BrainECHO:Whisper強化テキスト生成のためのベクトル量子スペクトログラム再構成による意味脳信号復号
- Authors: Jilong Li, Zhenxi Song, Jiaqi Wang, Meishan Zhang, Honghai Liu, Min Zhang, Zhiguo Zhang,
- Abstract要約: 現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
- 参考スコア(独自算出の注目度): 48.20672677492805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current EEG/MEG-to-text decoding systems suffer from three key limitations: (1) reliance on teacher-forcing methods, which compromises robustness during inference, (2) sensitivity to session-specific noise, hindering generalization across subjects, and (3) misalignment between brain signals and linguistic representations due to pre-trained language model over-dominance. To overcome these challenges, we propose BrainECHO (Brain signal decoding via vEctor-quantized speCtrogram reconstruction for WHisper-enhanced text generatiOn), a multi-stage framework that employs decoupled representation learning to achieve state-of-the-art performance on both EEG and MEG datasets. Specifically, BrainECHO consists of three stages: (1) Discrete autoencoding, which transforms continuous Mel spectrograms into a finite set of high-quality discrete representations for subsequent stages. (2) Frozen alignment, where brain signal embeddings are mapped to corresponding Mel spectrogram embeddings in a frozen latent space, effectively filtering session-specific noise through vector-quantized reconstruction, yielding a 3.65% improvement in BLEU-4 score. (3) Constrained decoding fine-tuning, which leverages the pre-trained Whisper model for audio-to-text translation, balancing signal adaptation with knowledge preservation, and achieving 74%-89% decoding BLEU scores without excessive reliance on teacher forcing. BrainECHO demonstrates robustness across sentence, session, and subject-independent conditions, passing Gaussian noise tests and showcasing its potential for enhancing language-based brain-computer interfaces.
- Abstract(参考訳): 現在の脳波/MEG-to-text復号システムには,(1)推論中の頑健さを損なう教師強制法への依存,(2)セッション固有ノイズに対する感受性,(2)対象者間の一般化を妨げること,(3)事前訓練された言語モデルによる脳信号と言語表現の不一致,の3つの重要な制限がある。
これらの課題を克服するため、脳波とMEGデータセットの両方で最先端の性能を達成するために、非結合表現学習を利用する多段階フレームワークであるBrainECHO(ブレイン信号デコーディング)を提案する。
具体的には、BrainECHOは以下の3つの段階から構成される: (1) 離散自己符号化は、連続メル分光図を、その後の段階における高品質な離散表現の有限集合に変換する。
2) 凍結アライメントでは,脳信号の埋め込みを対応するメルスペクトルの埋め込みにマッピングし,ベクトル量子化再構成によるセッション特異的ノイズを効果的にフィルタリングし,BLEU-4のスコアが3.65%向上した。
3)教師の強制に過度に依存することなく,事前学習したWhisperモデルを利用して,知識保存と信号適応をバランスさせ,BLEUスコアを74%~89%の復号化を実現した。
BrainECHOは、文、セッション、主題に依存しない条件にまたがって堅牢性を示し、ガウスノイズテストに合格し、言語ベースの脳-コンピュータインターフェースを強化する可能性を示す。
関連論文リスト
- On Creating A Brain-To-Text Decoder [6.084958172018792]
本稿では,ヒト脳活動のデコードに生脳波信号(EEG)を適用した。
この調査は、音声生成に関連する神経信号の解読における脳-コンピュータインタフェース(BCI)の有効性を特に精査している。
論文 参考訳(メタデータ) (2025-01-10T20:04:54Z) - A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。
提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。
fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文 参考訳(メタデータ) (2024-09-29T14:03:39Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - MAD: Multi-Alignment MEG-to-Text Decoding [21.155031900491654]
本稿では,複数のアライメントを持つ音声復号化フレームワークを用いて,MEG信号をテキストに変換する手法を提案する。
我々は、$textitGWilliams$データセットのBLEU-1スコアを著しく達成し、BLEU-1メトリックのベースラインを5.49から10.44に大幅に上回った。
論文 参考訳(メタデータ) (2024-06-03T16:43:10Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive
signals and human language [23.623579364849526]
本稿では,fMRI時系列と人間の言語を橋渡しする最初のオープン語彙課題であるfMRI2textを提案する。
我々は、脳復号のためのベースラインソリューションUniCoRN: Unified Cognitive Signal ReconstructioNを提案する。
このモデルでは、fMRI2text上で34.77%のBLEUスコアが得られ、EEGto-textデコーディングに一般化すると37.04%のBLEUが得られる。
論文 参考訳(メタデータ) (2023-07-06T05:26:49Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。