論文の概要: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2406.04328v3
- Date: Tue, 08 Oct 2024 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:16.610225
- Title: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- Title(参考訳): 脳の微妙な教訓:自己監督型学習による音声デコーディングのスケーリング
- Authors: Dulhan Jayalath, Gilad Landau, Brendan Shillingford, Mark Woolrich, Oiwi Parker Jones,
- Abstract要約: 我々は、異種録音からの学習を表現するために、神経科学にインスパイアされた自己教師対象のセットをニューラルネットワークとともに開発する。
その結果、これらの目的によって学習された表現は、データとともにスケールし、主題、データセット、タスクをまたいで一般化し、同等の自己監督的アプローチを上回ります。
- 参考スコア(独自算出の注目度): 3.649801602551928
- License:
- Abstract: The past few years have produced a series of spectacular advances in the decoding of speech from brain activity. The engine of these advances has been the acquisition of labelled data, with increasingly large datasets acquired from single subjects. However, participants exhibit individual differences, such as anatomy, and datasets use varied scanners and task designs. As a result, prior work has struggled to leverage data from multiple subjects, multiple datasets, multiple tasks, and unlabelled datasets. In turn, the field has not benefited from the rapidly growing number of open neural data repositories to exploit large-scale data and deep learning. This gap exists for all neural data, but especially for magnetoencephalography (MEG), where the scale of individual datasets has not yet caught up with other modalities. To address this, we develop a set of neuroscience-inspired self-supervised objectives, together with a neural architecture, for representation learning from heterogeneous and unlabelled neural recordings. Experimental results with MEG show that representations learned with these objectives scale with data, generalise across subjects, datasets, and tasks, outperform using the raw input representation, and even surpass comparable self-supervised approaches. In addition, we set new benchmarks for two foundational speech decoding tasks. Collectively, these methods now unlock the potential for training speech decoding models with orders of magnitude more existing data.
- Abstract(参考訳): 過去数年間、脳の活動から発せられる音声の復号化において、目覚ましい進歩を遂げてきた。
これらの進歩のエンジンはラベル付きデータの取得であり、ますます大きなデータセットが単一の被験者から取得されるようになっている。
しかし、参加者は解剖学などの個人差を示し、データセットは様々なスキャナーとタスクデザインを使用する。
その結果、事前の作業では、複数の課題、複数のデータセット、複数のタスク、非競合的なデータセットからのデータを活用するのに苦労している。
逆にこの分野は、大規模データとディープラーニングを活用するオープンなニューラルネットワークレポジトリの急増による恩恵を受けていない。
このギャップはすべての神経データに対して存在し、特に脳磁図(MEG)では、個々のデータセットのスケールが他のモダリティに追いついていない。
そこで我々は, 神経科学に触発された自己教師対象の集合を, 神経構造とともに構築し, 異種・非競合的な神経記録からの学習を表現する。
MEGによる実験結果によると、これらの目的によって学習された表現は、データでスケールし、対象、データセット、タスクをまたいで一般化し、生の入力表現で性能を上回り、それと同等の自己監督的アプローチを上回ります。
さらに,2つの基礎的音声復号処理のための新しいベンチマークを設定した。
まとめると、これらの手法は、膨大な量の既存のデータで音声復号モデルを訓練する可能性を解き放つ。
関連論文リスト
- Resolving Domain Shift For Representations Of Speech In Non-Invasive Brain Recordings [3.5297361401370044]
脳磁図(MEG)を用いた非侵襲的データ収集に焦点を当てた。
私たちの知る限りでは、この研究はMEGニューロイメージングデータに基づく機能レベルの深層学習の初めての応用である。
論文 参考訳(メタデータ) (2024-10-25T21:56:23Z) - Predicting Infant Brain Connectivity with Federated Multi-Trajectory
GNNs using Scarce Data [54.55126643084341]
既存のディープラーニングソリューションには,3つの大きな制限がある。
我々はフェデレートグラフベースの多軌道進化ネットワークであるFedGmTE-Net++を紹介する。
フェデレーションの力を利用して、限られたデータセットを持つ多種多様な病院の地域学習を集約する。
論文 参考訳(メタデータ) (2024-01-01T10:20:01Z) - Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - A Unified, Scalable Framework for Neural Population Decoding [12.052847252465826]
神経活動の集団動態をモデル化するためのトレーニングフレームワークとアーキテクチャを導入する。
我々は,ヒト以外の霊長類7種の大規模データセットに基づいて訓練された大規模マルチセッションモデルを構築した。
論文 参考訳(メタデータ) (2023-10-24T17:58:26Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Hierarchical Self-Supervised Learning for Medical Image Segmentation
Based on Multi-Domain Data Aggregation [23.616336382437275]
医用画像分割のための階層型自己監督学習(HSSL)を提案する。
まず、いくつかの医学的課題からデータセットを収集し、自己教師付きでネットワークを事前訓練し、最後にラベル付きデータに微調整します。
スクラッチから学習するのに比べ、新しい手法は様々なタスクにおいてより良いパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2021-07-10T18:17:57Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。