論文の概要: LibriBrain: Over 50 Hours of Within-Subject MEG to Improve Speech Decoding Methods at Scale
- arxiv url: http://arxiv.org/abs/2506.02098v1
- Date: Mon, 02 Jun 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.915481
- Title: LibriBrain: Over 50 Hours of Within-Subject MEG to Improve Speech Decoding Methods at Scale
- Title(参考訳): LibriBrain:50時間以上のオブジェクト内MEGによる大規模音声復号法の改善
- Authors: Miran Özdogan, Gilad Landau, Gereon Elvers, Dulhan Jayalath, Pratik Somaiya, Francesco Mantegna, Mark Woolrich, Oiwi Parker Jones,
- Abstract要約: LibriBrainは、音声復号のためにこれまでで最大の単一オブジェクトMEGデータセットである。
オブジェクト内データのこの前例のない深さ」は、これまで非侵襲的な方法で利用できなかったスケールでの神経表現の探索を可能にする。
- 参考スコア(独自算出の注目度): 2.225053366951265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LibriBrain represents the largest single-subject MEG dataset to date for speech decoding, with over 50 hours of recordings -- 5$\times$ larger than the next comparable dataset and 50$\times$ larger than most. This unprecedented `depth' of within-subject data enables exploration of neural representations at a scale previously unavailable with non-invasive methods. LibriBrain comprises high-quality MEG recordings together with detailed annotations from a single participant listening to naturalistic spoken English, covering nearly the full Sherlock Holmes canon. Designed to support advances in neural decoding, LibriBrain comes with a Python library for streamlined integration with deep learning frameworks, standard data splits for reproducibility, and baseline results for three foundational decoding tasks: speech detection, phoneme classification, and word classification. Baseline experiments demonstrate that increasing training data yields substantial improvements in decoding performance, highlighting the value of scaling up deep, within-subject datasets. By releasing this dataset, we aim to empower the research community to advance speech decoding methodologies and accelerate the development of safe, effective clinical brain-computer interfaces.
- Abstract(参考訳): LibriBrainは、音声デコーディングにおいてこれまでで最大の単一オブジェクトMEGデータセットであり、50時間以上の録音 – 5$\times$が次の同等データセットよりも大きく、50$\times$がほとんどよりも大きい。
この前代未聞の「深度」は、非侵襲的な方法でこれまで利用できなかったスケールでの神経表現の探索を可能にする。
LibriBrainは高品質なMEG録音と、自然主義的な英語を聴く1人の聴衆からの詳細な注釈を含んでおり、シャーロック・ホームズ・カノンのほぼ全てをカバーしている。
ニューラルデコーディングの進歩をサポートするように設計されたLibriBrainには、ディープラーニングフレームワークとの統合を合理化するためのPythonライブラリ、再現性のための標準データ分割、音声検出、音素分類、単語分類という3つの基本的なデコーディングタスクのベースライン結果が含まれている。
ベースライン実験は、トレーニングデータの増加がデコードパフォーマンスを大幅に改善することを示し、深層、オブジェクト内データセットのスケールアップの価値を強調している。
このデータセットを公開することにより、研究コミュニティが音声復号法を推進し、安全で効果的な臨床脳-コンピュータインターフェースの開発を加速することを目指している。
関連論文リスト
- The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning [3.649801602551928]
我々は、異種脳記録から学ぶための自己教師型目標とアーキテクチャを共に開発する。
約400時間のMEGデータと900の被験者にスケールすると、私たちのアプローチは、参加者、データセット、タスク、さらには新しい被験者への一般化を示しています。
最先端モデルの15~27%の改善を実現し、非侵襲的なデータと外科的復号性能を一致させる。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。