論文の概要: Towards unified brain-to-text decoding across speech production and perception
- arxiv url: http://arxiv.org/abs/2603.12628v1
- Date: Fri, 13 Mar 2026 03:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.891459
- Title: Towards unified brain-to-text decoding across speech production and perception
- Title(参考訳): 音声生成と知覚における脳とテキストの統一的復号化に向けて
- Authors: Zhizhang Yuan, Yang Yang, Gaorui Zhang, Baowen Cheng, Zehan Wu, Yuhao Xu, Xiaoying Liu, Liang Chen, Ying Mao, Meng Li,
- Abstract要約: 中国語における音声生成と知覚の両面に対して,脳から文への統一的なデコーディングフレームワークを提案する。
このフレームワークは強力な一般化能力を示し、単一文字データでのみ訓練された場合の文レベルのデコードを可能にする。
本研究は,統合復号化フレームワークの実現可能性を確立し,マンダリン音声の生成と知覚の神経特性に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 12.660399385706349
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech production and perception are the main ways humans communicate daily. Prior brain-to-text decoding studies have largely focused on a single modality and alphabetic languages. Here, we present a unified brain-to-sentence decoding framework for both speech production and perception in Mandarin Chinese. The framework exhibits strong generalization ability, enabling sentence-level decoding when trained only on single-character data and supporting characters and syllables unseen during training. In addition, it allows direct and controlled comparison of neural dynamics across modalities. Mandarin speech is decoded by first classifying syllable components in Hanyu Pinyin, namely initials and finals, from neural signals, followed by a post-trained large language model (LLM) that maps sequences of toneless Pinyin syllables to Chinese sentences. To enhance LLM decoding, we designed a three-stage post-training and two-stage inference framework based on a 7-billion-parameter LLM, achieving overall performance that exceeds larger commercial LLMs with hundreds of billions of parameters or more. In addition, several characteristics were observed in Mandarin speech production and perception: speech production involved neural responses across broader cortical regions than auditory perception; channels responsive to both modalities exhibited similar activity patterns, with speech perception showing a temporal delay relative to production; and decoding performance was broadly comparable across hemispheres. Our work not only establishes the feasibility of a unified decoding framework but also provides insights into the neural characteristics of Mandarin speech production and perception. These advances contribute to brain-to-text decoding in logosyllabic languages and pave the way toward neural language decoding systems supporting multiple modalities.
- Abstract(参考訳): 音声生成と知覚は、人間が毎日コミュニケーションをとる主要な方法である。
脳からテキストへの復号化研究は、主に単一のモダリティとアルファベットの言語に焦点を合わせてきた。
本稿では,中国語における音声生成と知覚の両面において,脳から文への統一的なデコーディングフレームワークを提案する。
このフレームワークは強力な一般化能力を示し、単一文字データのみに基づいて訓練された場合の文レベルのデコーディングを可能にし、訓練中に見つからない文字や音節をサポートする。
さらに、モジュラリティ間でのニューラルダイナミクスの直接的および制御された比較を可能にする。
マンダリン音声は、初音と終音をニューラル信号から最初に分類し、その後、無音ピニイン音節の列を中国語の文にマッピングする訓練後の大言語モデル(LLM)でデコードされる。
LLMの復号化を図るため, 数十億以上のパラメータを持つ大型商用LCMを超越した総合的な性能を実現するために, 7ビリオンパラメトリックLSMに基づく3段階後・2段階推論フレームワークを設計した。
さらに、マンダリン音声の発声と知覚にいくつかの特徴が見られた: 音声生成は、聴覚的知覚よりも広い皮質領域にわたる神経応答を伴い、両方のモダリティに応答するチャネルは類似した行動パターンを示し、発声に対する時間的遅延を示し、デコード性能は、半球全体で広く比較された。
我々の研究は、統合デコードフレームワークの実現可能性を確立するだけでなく、マンダリン音声の生成と知覚の神経特性に関する洞察も提供する。
これらの進歩は、ロゴ音節言語における脳からテキストへのデコーディングに寄与し、複数のモダリティをサポートするニューラル言語デコーディングシステムへの道を開いた。
関連論文リスト
- Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations [18.74784108693223]
トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
論文 参考訳(メタデータ) (2025-09-19T06:29:33Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。
本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。
本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文 参考訳(メタデータ) (2025-04-02T10:38:08Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。