論文の概要: Teaching Wav2Vec2 the Language of the Brain
- arxiv url: http://arxiv.org/abs/2501.09459v1
- Date: Thu, 16 Jan 2025 10:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:45.970381
- Title: Teaching Wav2Vec2 the Language of the Brain
- Title(参考訳): Wav2Vec2:脳の言語を教える
- Authors: Tobias Fiedler, Leon Hermann, Florian Müller, Sarel Cohen, Peter Chin, Tobias Friedrich, Eilon Vaadia,
- Abstract要約: 我々は、Wav2Vec2が学習したパターンが脳データに転送可能であることを示す。
We run full-tuning with pre-trained weights for Wav2Vec2, training 'from scratch' without pre-trained weights, and the pre-trained Wav2Vec2 and training the BFE for 45 different BFE architectures。
- 参考スコア(独自算出の注目度): 13.094509587996082
- License:
- Abstract: The decoding of continuously spoken speech from neuronal activity has the potential to become an important clinical solution for paralyzed patients. Deep Learning Brain Computer Interfaces (BCIs) have recently successfully mapped neuronal activity to text contents in subjects who attempted to formulate speech. However, only small BCI datasets are available. In contrast, labeled data and pre-trained models for the closely related task of speech recognition from audio are widely available. One such model is Wav2Vec2 which has been trained in a self-supervised fashion to create meaningful representations of speech audio data. In this study, we show that patterns learned by Wav2Vec2 are transferable to brain data. Specifically, we replace its audio feature extractor with an untrained Brain Feature Extractor (BFE) model. We then execute full fine-tuning with pre-trained weights for Wav2Vec2, training ''from scratch'' without pre-trained weights as well as freezing a pre-trained Wav2Vec2 and training only the BFE each for 45 different BFE architectures. Across these experiments, the best run is from full fine-tuning with pre-trained weights, achieving a Character Error Rate (CER) of 18.54\%, outperforming the best training from scratch run by 20.46\% and that of frozen Wav2Vec2 training by 15.92\% percentage points. These results indicate that knowledge transfer from audio speech recognition to brain decoding is possible and significantly improves brain decoding performance for the same architectures. Related source code is available at https://github.com/tfiedlerdev/Wav2Vec2ForBrain.
- Abstract(参考訳): 連続音声音声の神経活動からの復号は麻痺患者にとって重要な臨床ソリューションとなる可能性がある。
深層学習脳コンピュータインタフェース(BCI)は、最近、音声を定式化しようとする被験者のテキスト内容に神経活動のマッピングに成功した。
しかし、利用可能なのは小さなBCIデータセットのみである。
対照的に、音声からの音声認識の密接な関連タスクのためのラベル付きデータと事前学習されたモデルが広く利用可能である。
そのようなモデルのひとつにWav2Vec2があり、音声データの有意義な表現を作成するために自己教師型で訓練されている。
本研究では,Wav2Vec2が学習したパターンが脳データに伝達可能であることを示す。
具体的には、音声特徴抽出器を訓練されていない脳機能指数(BFE)モデルに置き換える。
次に、Wav2Vec2のトレーニング済み重量をフルチューニングし、事前トレーニング済み重量を使わずに'スクラッチ'をトレーニングし、Wav2Vec2を凍結し、45の異なるBFEアーキテクチャに対してそれぞれBFEのみをトレーニングする。
これらの実験全体では、トレーニング済みの重量の完全な微調整から18.54 %のキャラクタエラー率(CER)を達成し、20.46 %のスクラッチと15.92 %の凍結したWav2Vec2のトレーニングで最高のトレーニングを達成している。
以上の結果から,音声認識から脳復号への知識伝達が可能であり,脳復号性能が向上することが示唆された。
関連するソースコードはhttps://github.com/tfiedlerdev/Wav2Vec2ForBrainで公開されている。
関連論文リスト
- Brain-to-Text Benchmark '24: Lessons Learned [30.41641771704316]
音声脳とコンピュータのインターフェイスは、人が神経活動だけで何を言おうとしているのかを解読することを目的としている。
Brain-to-Text Benchmark '24は、ニューラルアクティビティをテキストに変換するデコードアルゴリズムの進歩を促進する。
このベンチマークは、ブレイン・トゥ・テキスト・アルゴリズムの精度向上に向けたさらなる取り組みを支援するために、無期限に公開される。
論文 参考訳(メタデータ) (2024-12-23T02:44:35Z) - Improving Speech Decoding from ECoG with Self-Supervised Pretraining [0.0]
ノイズコントラスト損失を用いて音声の潜在表現を学習する自己教師付き完全畳み込みモデルを再設計する。
我々は、このモデルを心電図記録(ECoG)に基づいて訓練する。
次に、ラベル付き音声セッションからwav2vecの表現空間にECoGを変換し、最後に教師付きエンコーダデコーダをトレーニングし、これらの表現をテキストにマッピングします。
論文 参考訳(メタデータ) (2024-05-28T22:48:53Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Don't stop the training: continuously-updating self-supervised
algorithms best account for auditory responses in the cortex [1.7725414095035827]
機能的UltraSound Imaging(fUS)により記録された2つのフェレット聴覚皮質の脳反応の解析
960,hの音声で事前訓練した自己教師型ニューラルネットワークであるWav2vec 2.0の活性化とこれらの脳反応を比較した。
論文 参考訳(メタデータ) (2022-02-15T10:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。