論文の概要: Decoding inner speech with an end-to-end brain-to-text neural interface
- arxiv url: http://arxiv.org/abs/2511.21740v1
- Date: Fri, 21 Nov 2025 21:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.193392
- Title: Decoding inner speech with an end-to-end brain-to-text neural interface
- Title(参考訳): エンド・ツー・エンド脳-テキスト・ニューラル・インタフェースを用いた内的音声のデコード
- Authors: Yizi Zhang, Linyang He, Chaofei Fan, Tingkai Liu, Han Yu, Trung Le, Jingyuan Li, Scott Linderman, Lea Duncker, Francis R Willett, Nima Mesgarani, Liam Paninski,
- Abstract要約: 音声脳-コンピュータインタフェース(BCI)は、神経活動をテキストに翻訳することで麻痺のある人々のコミュニケーションを回復することを目的としている。
本稿では、単一微分可能なニューラルネットワークを用いて、ニューラルネットワークをコヒーレントな文に変換する、エンドツーエンドのBrain-to-Textフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 33.17572163528015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech brain-computer interfaces (BCIs) aim to restore communication for people with paralysis by translating neural activity into text. Most systems use cascaded frameworks that decode phonemes before assembling sentences with an n-gram language model (LM), preventing joint optimization of all stages simultaneously. Here, we introduce an end-to-end Brain-to-Text (BIT) framework that translates neural activity into coherent sentences using a single differentiable neural network. Central to our approach is a cross-task, cross-species pretrained neural encoder, whose representations transfer to both attempted and imagined speech. In a cascaded setting with an n-gram LM, the pretrained encoder establishes a new state-of-the-art (SOTA) on the Brain-to-Text '24 and '25 benchmarks. Integrated end-to-end with audio large language models (LLMs) and trained with contrastive learning for cross-modal alignment, BIT reduces the word error rate (WER) of the prior end-to-end method from 24.69% to 10.22%. Notably, we find that small-scale audio LLMs markedly improve end-to-end decoding. Beyond record-setting performance, BIT aligns attempted and imagined speech embeddings to enable cross-task generalization. Altogether, our approach advances the integration of large, diverse neural datasets, paving the way for an end-to-end decoding framework that supports seamless, differentiable optimization.
- Abstract(参考訳): 音声脳-コンピュータインタフェース(BCI)は、神経活動をテキストに翻訳することで麻痺のある人々のためのコミュニケーションを回復することを目的としている。
ほとんどのシステムは、文をn-gram言語モデル(LM)で組み立てる前に、音素をデコードするカスケードフレームワークを使用しており、全てのステージの同時最適化を同時に防止している。
本稿では、単一微分可能なニューラルネットワークを用いて、ニューラルネットワークをコヒーレントな文に変換する、エンドツーエンドのBrain-to-Text(BIT)フレームワークを紹介する。
私たちのアプローチの中心は、クロスタスク、クロストレーニングされたニューラルエンコーダです。
n-gram LMのケースで、事前訓練されたエンコーダは、Brain-to-Text '24 と '25 ベンチマークで新しい最先端(SOTA)を確立する。
音声大言語モデル(LLM)と統合されたエンドツーエンドモデル(英語版)と、相互モーダルアライメントのためのコントラスト学習で訓練されたBITは、従来のエンドツーエンドメソッドの単語エラー率(WER)を24.69%から10.22%に削減した。
特に,小型オーディオLLMはエンド・ツー・エンドの復号化を著しく改善している。
レコードセットのパフォーマンス以外にも、BITは、クロスタスクの一般化を可能にするために、試行錯誤された音声埋め込みを調整している。
さらに、当社のアプローチは、大規模で多様なニューラルネットワークの統合を推進し、シームレスで微分可能な最適化をサポートするエンドツーエンドのデコーディングフレームワークへの道を開いた。
関連論文リスト
- sEEG-based Encoding for Sentence Retrieval: A Contrastive Learning Approach to Brain-Language Alignment [8.466223794246261]
本稿では,凍結したCLIPモデルの文埋め込み空間に単射ステレオ脳波信号(sEEG)を投影するコントラスト学習フレームワークであるSSENSEを提案する。
本手法は,自然主義映画視聴データセットから,時系列のsEEGと音声の書き起こしについて評価する。
論文 参考訳(メタデータ) (2025-04-20T03:01:42Z) - Explanations of Large Language Models Explain Language Representations in the Brain [5.7916055414970895]
本稿では、言語処理と脳神経活動の関連性を高めるために、説明可能なAI(XAI)を用いた新しいアプローチを提案する。
帰属法を適用することで,先行する単語が予測に与える影響を定量化する。
より強い属性は、生物学的説明法を評価するために脳のアライメントを示唆している。
論文 参考訳(メタデータ) (2025-02-20T16:05:45Z) - Brain-to-Text Benchmark '24: Lessons Learned [30.41641771704316]
音声脳とコンピュータのインターフェイスは、人が神経活動だけで何を言おうとしているのかを解読することを目的としている。
Brain-to-Text Benchmark '24は、ニューラルアクティビティをテキストに変換するデコードアルゴリズムの進歩を促進する。
このベンチマークは、ブレイン・トゥ・テキスト・アルゴリズムの精度向上に向けたさらなる取り組みを支援するために、無期限に公開される。
論文 参考訳(メタデータ) (2024-12-23T02:44:35Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。
textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文 参考訳(メタデータ) (2024-05-19T16:06:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。