Fugu-MT 論文翻訳(概要): Decoding the decoder: Contextual sequence-to-sequence modeling for intracortical speech decoding

論文の概要: Decoding the decoder: Contextual sequence-to-sequence modeling for intracortical speech decoding

arxiv url: http://arxiv.org/abs/2603.20246v1
Date: Tue, 10 Mar 2026 11:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:12.931583
Title: Decoding the decoder: Contextual sequence-to-sequence modeling for intracortical speech decoding
Title（参考訳）: デコーダの復号化:皮質内音声復号のための文脈的シーケンス・ツー・シーケンスモデリング
Authors: Michal Olak, Tommaso Boccato, Matteo Ferrante,
Abstract要約: 音声脳-コンピュータインタフェースは、皮質内活動から言語出力に変換するデコーダを必要とする。文脈的シーケンス・ツー・シーケンスの復号化がサブレキシカル・ニューラル・リードアウト、ロバストネス、解釈可能性にどのような影響を及ぼすかはいまだ不明である。我々は,6v領域の皮質内記録からの音声復号を試みるためのトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルの評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech brain--computer interfaces require decoders that translate intracortical activity into linguistic output while remaining robust to limited data and day-to-day variability. While prior high-performing systems have largely relied on framewise phoneme decoding combined with downstream language models, it remains unclear what contextual sequence-to-sequence decoding contributes to sublexical neural readout, robustness, and interpretability. We evaluated a multitask Transformer-based sequence-to-sequence model for attempted speech decoding from area 6v intracortical recordings. The model jointly predicts phoneme sequences, word sequences, and auxiliary acoustic features. To address day-to-day nonstationarity, we introduced the Neural Hammer Scalpel (NHS) calibration module, which combines global alignment with feature-wise modulation. We further analyzed held-out-day generalization and attention patterns in the encoder and decoders. On the Willett et al. dataset, the proposed model achieved a state-of-the-art phoneme error rate of 14.3%. Word decoding reached 25.6% WER with direct decoding and 19.4% WER with candidate generation and rescoring. NHS substantially improved both phoneme and word decoding relative to linear or no day-specific transform, while held-out-day experiments showed increasing degradation on unseen days with temporal distance. Attention visualizations revealed recurring temporal chunking in encoder representations and distinct use of these segments by phoneme and word decoders. These results indicate that contextual sequence-to-sequence modeling can improve the fidelity of neural-to-phoneme readout from intracortical speech signals and suggest that attention-based analyses can generate useful hypotheses about how neural speech evidence is segmented and accumulated over time.
Abstract（参考訳）: 音声脳-コンピュータインタフェースは、限られたデータと日々の変動に頑健でありながら、皮質内活動から言語出力に変換するデコーダを必要とする。従来のハイパフォーマンスシステムは、ダウンストリーム言語モデルと組み合わさったフレームワイド音素復号法に大きく依存しているが、文脈的シーケンス・ツー・シーケンス復号法がサブレキシカル・ニューラル・リードアウト、ロバストネス、解釈可能性にどのような影響を及ぼすかは定かではない。我々は6v領域の皮質内記録からの音声復号を試みるためのマルチタスクトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルについて検討した。モデルは、音素列、単語列、補助音響特徴を共同で予測する。日々の非定常性に対処するために,グローバルアライメントと特徴量変調を組み合わせたニューラルハマースカペル(NHS)キャリブレーションモジュールを導入した。さらに,エンコーダとデコーダの保留日の一般化と注意パターンを解析した。 Willettらによるデータセットでは、提案されたモデルは最先端の音素誤り率14.3%を達成した。単語の復号化は25.6%、直接復号化は19.4%に達した。 NHSは音素と単語の復号を線形あるいは日毎の変換と比較して大幅に改善し, 保留日実験では時間的距離の低い日数では劣化が認められた。注意可視化では,エンコーダ表現における時間的チャンクの繰り返しと,音素と単語デコーダによるこれらのセグメントの明瞭な利用が示された。これらの結果は、文脈的シーケンス・ツー・シーケンス・モデリングにより、皮質内音声信号からのニューラル・ツー・音素の読み出し精度が向上し、アテンションに基づく分析により、ニューラル・スピーチ・エビデンスがどのようにセグメンテーションされ、蓄積されるかについての有用な仮説が導かれることを示唆している。

関連論文リスト

Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning [1.58476321728042]
Speech Brain Computer Interfacesは、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。近年の研究では、表面電図(ECoG)や皮質内記録からの理解不能音声の再構築が実証されている。本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づいて,視覚変換器とコントラスト学習を統合したオフライン音声復号パイプラインを提案する。
論文参考訳（メタデータ） (2025-12-04T09:47:15Z)
A Multimodal Seq2Seq Transformer for Predicting Brain Responses to Naturalistic Stimuli [0.0]
Algonauts 2025 Challengeは、自然主義的なマルチモーダル映画に対する全脳のfMRI反応を予測するエンコーディングモデルを開発するようコミュニティに呼びかけた。本稿では,視覚,聴覚,言語入力からfMRI活動を自動的に予測するシーケンス・ツー・シーケンス・トランスフォーマを提案する。
論文参考訳（メタデータ） (2025-07-24T05:29:37Z)
Decoding Phone Pairs from MEG Signals Across Speech Modalities [0.4054486015338004]
脳磁図信号を用いて、音声生成や知覚タスク中の脳活動から携帯電話を復号する方法について検討した。その結果,受動聴取や再生モダリティと比較して,音声生成時の復号精度が有意に高かった。
論文参考訳（メタデータ） (2025-05-21T10:31:34Z)
A multimodal LLM for the non-invasive decoding of spoken text from brain recordings [0.4187344935012482]
fMRI信号から音声テキストを復号するためのマルチモーダルLLMを提案する。提案アーキテクチャは, (i) 特定のトランスフォーマーから派生したエンコーダ上に構築され, エンコーダに付加された埋め込み層と, 最先端のアテンション機構が組み込まれている。 fMRIと会話信号が同期的に記録される、人間-ロボット相互作用と人間-ロボット相互作用のセットからなるコーパス上で行われたベンチマーク。
論文参考訳（メタデータ） (2024-09-29T14:03:39Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Attentional Speech Recognition Models Misbehave on Out-of-domain Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文参考訳（メタデータ） (2020-02-12T18:53:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。