論文の概要: EEG-to-Text Translation: A Model for Deciphering Human Brain Activity
- arxiv url: http://arxiv.org/abs/2505.13936v1
- Date: Tue, 20 May 2025 05:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.753811
- Title: EEG-to-Text Translation: A Model for Deciphering Human Brain Activity
- Title(参考訳): 脳波からテキストへの翻訳:人間の脳活動のモデル
- Authors: Saydul Akbar Murad, Ashim Dahal, Nick Rahimi,
- Abstract要約: 本稿では,脳波からテキストへのデコーディングの性能向上を目的とした新しいモデルR1 Translatorを提案する。
モデルでは、LSTMを通じてEEGの埋め込みを処理し、シーケンシャルな依存関係をキャプチャし、トランスフォーマーデコーダに入力する。
R1 TranslatorはROUGEメトリックで優れており、T5とBrain Translatorより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of large language models like Gemini, GPT, and others, bridging the gap between the human brain and language processing has become an important area of focus. To address this challenge, researchers have developed various models to decode EEG signals into text. However, these models still face significant performance limitations. To overcome these shortcomings, we propose a new model, R1 Translator, which aims to improve the performance of EEG-to-text decoding. The R1 Translator model combines a bidirectional LSTM encoder with a pretrained transformer-based decoder, utilizing EEG features to produce high-quality text outputs. The model processes EEG embeddings through the LSTM to capture sequential dependencies, which are then fed into the transformer decoder for effective text generation. The R1 Translator excels in ROUGE metrics, outperforming both T5 (previous research) and Brain Translator. Specifically, R1 achieves a ROUGE-1 score of 38.00% (P), which is up to 9% higher than T5 (34.89%) and 3% better than Brain (35.69%). It also leads in ROUGE-L, with a F1 score of 32.51%, outperforming T5 by 3% (29.67%) and Brain by 2% (30.38%). In terms of CER, R1 achieves a CER of 0.5795, which is 2% lower than T5 (0.5917) and 4% lower than Brain (0.6001). Additionally, R1 performs better in WER with a score of 0.7280, outperforming T5 by 4.3% (0.7610) and Brain by 3.6% (0.7553). Code is available at https://github.com/Mmurrad/EEG-To-text.
- Abstract(参考訳): GeminiやGPTなどの大規模言語モデルの急速な進歩により、人間の脳と言語処理のギャップを埋めることが、重要な焦点となっている。
この課題に対処するため、研究者は脳波信号をテキストに復号する様々なモデルを開発した。
しかし、これらのモデルは依然として大きな性能上の制限に直面している。
これらの欠点を克服するため,脳波からテキストへのデコーディングの性能向上を目的とした新しいモデルR1 Translatorを提案する。
R1トランスレータモデルは、双方向LSTMエンコーダと事前訓練されたトランスフォーマーベースのデコーダを組み合わせて、EEG機能を利用して高品質なテキスト出力を生成する。
モデルでは、LSTMを通じてEEGの埋め込みを処理し、シーケンシャルな依存関係をキャプチャし、トランスフォーマーデコーダに送って効果的なテキスト生成を行う。
R1 TranslatorはROUGEの指標を上回り、T5(以前の研究)とBrain Translatorの両方を上回っている。
具体的には、ROUGE-1スコアは38.00%(P)で、T5(34.89%)より9%高く、Brain(35.69%)より3%高い。
またROUGE-LではF1スコアが32.51%、T5が3%(29.67%)、Brainが2%(0.38%)である。
CERは0.5795で、これはT5 (0.5917) よりも2%低く、Brain (0.6001) より4%低い。
さらに、WERではスコアが0.7280、T5が4.3%(0.7610)、Brainが3.6%(0.7553)である。
コードはhttps://github.com/Mmurrad/EEG-To-textで入手できる。
関連論文リスト
- Performance Evaluation of Emotion Classification in Japanese Using RoBERTa and DeBERTa [0.0]
ソーシャルメディアモニタリングと顧客フィードバック分析は、日本語テキストの正確な感情検出を必要とする。
本研究は,日本語文中の8つのプリュッチク感情の有無を予測するための高精度モデルを構築することを目的とする。
論文 参考訳(メタデータ) (2025-04-22T07:51:37Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - Improved Factorized Neural Transducer Model For text-only Domain Adaptation [14.65352101664147]
エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:02:04Z) - Model-Generated Pretraining Signals Improves Zero-Shot Generalization of
Text-to-Text Transformers [98.30298332661323]
本稿では,T5などのテキスト変換器のゼロショット一般化におけるモデル生成信号の有効性について検討する。
我々は新しいモデルMETRO-T0を開発し、ELECTRA-Style事前学習戦略を用いて事前訓練を行い、次にNLPタスクの混合を即時微調整する。
その結果,METRO-T0の有効性は,パラメータのよりバランスの取れた寄与と,それらの能力の有効利用に起因していることが判明した。
論文 参考訳(メタデータ) (2023-05-21T21:06:23Z) - idT5: Indonesian Version of Multilingual T5 Transformer [0.0]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。
本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。
論文 参考訳(メタデータ) (2023-02-02T03:56:16Z) - Understanding Medical Conversations: Rich Transcription, Confidence
Scores & Information Extraction [7.12355127219356]
本稿では,ロングフォームオーディオに適したトランスフォーマーベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。
本研究では,これらのモデルが実用的応用に十分正確であることを示唆した。
論文 参考訳(メタデータ) (2021-04-06T01:16:59Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。