論文の概要: DELTA: Language Diffusion-based EEG-to-Text Architecture
- arxiv url: http://arxiv.org/abs/2511.21746v1
- Date: Sat, 22 Nov 2025 10:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.201306
- Title: DELTA: Language Diffusion-based EEG-to-Text Architecture
- Title(参考訳): DELTA: 言語拡散に基づくEEG-to-Textアーキテクチャ
- Authors: Mingyu Jeon, Hyobin Kim,
- Abstract要約: DELTAを導入し、Residual Vector Quantization (RVQ) EEGトークンとマスク付き言語拡散モデル(LLaDA)を組み合わせた。
ZuCo上では、DELTAは、単語レベル条件下でBLEU-1 21.9とROUGE-1 F 17.2を達成し、自己回帰ベースライン上で最大5.37ポイントのセマンティックアライメントを改善する。
これらの結果により、小さなEEGテキストデータセットから信頼性の高いテキスト生成が可能となり、スケーラブルなマルチモーダルEEG言語モデルへ向けられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electroencephalogram (EEG)-to-text remains challenging due to high-dimensional noise, subject variability, and error accumulation in autoregressive decoding. We introduce DELTA, which pairs a Residual Vector Quantization (RVQ) EEG tokenizer with a masked language diffusion model (LLaDA). RVQ discretizes continuous EEG into multi-layer tokens to reduce noise and individual differences, while LLaDA reconstructs sentences via non-sequential denoising. On ZuCo, DELTA improves semantic alignment by up to 5.37 points over autoregressive baselines, achieving BLEU-1 21.9 and ROUGE-1 F 17.2 under word-level conditions. These results enable reliable text generation from small EEG-text datasets and point toward scalable multimodal EEG-language models.
- Abstract(参考訳): 脳波(EEG-to-text)は、高次元ノイズ、被写体変動、自己回帰復号における誤り蓄積などにより、依然として困難である。
本稿では,Residual Vector Quantization (RVQ) EEGトークンをマスク付き言語拡散モデル(LLaDA)と組み合わせたDELTAを紹介する。
RVQは連続した脳波を多層トークンに識別し、ノイズと個人差を減らす。
ZuCo上では、DELTAは、単語レベル条件下でBLEU-1 21.9とROUGE-1 F 17.2を達成し、自己回帰ベースライン上で最大5.37ポイントのセマンティックアライメントを改善する。
これらの結果により、小さなEEGテキストデータセットから信頼性の高いテキスト生成が可能となり、スケーラブルなマルチモーダルEEG言語モデルへ向けられる。
関連論文リスト
- Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - SEE: Semantically Aligned EEG-to-Text Translation [5.460650382586978]
神経生理学的信号を言語に復号することは、脳-コンピュータインターフェース(BCI)の応用において非常に興味深い研究である。
現在のEEG-to-Textデコーディングアプローチは、EEGレコードと生テキストの間に大きなドメインギャップがあるため、課題に直面している。
本稿では,脳波からテキストへのデコードを改善するための新しい手法であるセマンティック・アラインドEEG-to-Text Translationを提案する。
論文 参考訳(メタデータ) (2024-09-14T05:37:15Z) - Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings [27.418738450536047]
脳波信号を文に変換するための2ステップパイプラインを提案する。
まず,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。
脳波エンコーダからの予測に基づいて文章を検索するために,学習不要な検索手法を用いる。
論文 参考訳(メタデータ) (2024-08-08T03:40:25Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。