論文の概要: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2406.04328v1
- Date: Thu, 6 Jun 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.301930
- Title: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- Title(参考訳): 脳の微妙な教訓:自己監督型学習による音声デコーディングのスケーリング
- Authors: Dulhan Jayalath, Gilad Landau, Brendan Shillingford, Mark Woolrich, Oiwi Parker Jones,
- Abstract要約: 我々は、異種録音からの学習を表現するために、神経科学にインスパイアされた自己教師対象の初期のセットをニューラルネットワークとともに開発する。
実験の結果、これらの目的によって学習された表現は、対象物、データセット、タスクにまたがって一般化され、ラベル付きデータよりも速く学習されることがわかった。
- 参考スコア(独自算出の注目度): 3.649801602551928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past few years have produced a series of spectacular advances in the decoding of speech from brain activity. The engine of these advances has been the acquisition of labelled data, with increasingly large datasets acquired from single subjects. However, participants exhibit anatomical and other individual differences, and datasets use varied scanners and task designs. As a result, prior work has struggled to leverage data from multiple subjects, multiple datasets, multiple tasks, and unlabelled datasets. In turn, the field has not benefited from the rapidly growing number of open neural data repositories to exploit large-scale data and deep learning. To address this, we develop an initial set of neuroscience-inspired self-supervised objectives, together with a neural architecture, for representation learning from heterogeneous and unlabelled neural recordings. Experimental results show that representations learned with these objectives generalise across subjects, datasets, and tasks, and are also learned faster than using only labelled data. In addition, we set new benchmarks for two foundational speech decoding tasks. Taken together, these methods now unlock the potential for training speech decoding models with orders of magnitude more existing data.
- Abstract(参考訳): 過去数年間、脳の活動から発せられる音声の復号化において、目覚ましい進歩を遂げてきた。
これらの進歩のエンジンはラベル付きデータの取得であり、ますます大きなデータセットが単一の被験者から取得されるようになっている。
しかし、参加者は解剖学的および他の個人差を示し、データセットは様々なスキャナーとタスクデザインを使用する。
その結果、事前の作業では、複数の課題、複数のデータセット、複数のタスク、非競合的なデータセットからのデータを活用するのに苦労している。
逆にこの分野は、大規模データとディープラーニングを活用するオープンなニューラルネットワークレポジトリの急増による恩恵を受けていない。
これを解決するために、我々は、神経科学にインスパイアされた自己教師対象の初期のセットを、神経アーキテクチャとともに開発し、異種および非競合的な神経記録からの学習を表現する。
実験の結果、これらの目的によって学習された表現は、対象物、データセット、タスクにまたがって一般化され、ラベル付きデータよりも速く学習されることがわかった。
さらに,2つの基礎的音声復号処理のための新しいベンチマークを設定した。
まとめると、これらの手法は、膨大な量の既存のデータで音声復号モデルを訓練する可能性を解き放つ。
関連論文リスト
- Resolving Domain Shift For Representations Of Speech In Non-Invasive Brain Recordings [3.5297361401370044]
脳磁図(MEG)を用いた非侵襲的データ収集に焦点を当てた。
私たちの知る限りでは、この研究はMEGニューロイメージングデータに基づく機能レベルの深層学習の初めての応用である。
論文 参考訳(メタデータ) (2024-10-25T21:56:23Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - BrainSegFounder: Towards 3D Foundation Models for Neuroimage Segmentation [6.5388528484686885]
本研究は,医療基盤モデルの創出に向けた新しいアプローチを紹介する。
本稿では,視覚変換器を用いた2段階事前学習手法を提案する。
BrainFounderは、これまでの勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を実演している。
論文 参考訳(メタデータ) (2024-06-14T19:49:45Z) - Aligning brain functions boosts the decoding of visual semantics in
novel subjects [3.226564454654026]
脳の反応をビデオや静止画像に合わせることで脳の復号化を促進することを提案する。
提案手法はオブジェクト外デコード性能を最大75%向上させる。
また、テスト対象者に対して100分未満のデータが得られる場合、古典的な単一オブジェクトアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T15:55:20Z) - Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - Fighting the scanner effect in brain MRI segmentation with a progressive
level-of-detail network trained on multi-site data [1.6379393441314491]
LOD-Brainは3D畳み込みニューラルネットワークで、どの部位からでも脳データを分割できる。
最先端の結果を生成するが、内部サイトと外部サイトのパフォーマンスには大きな違いはない。
その移植性は、さまざまな医療機関、患者集団、画像技術製造業者に対して大規模な応用の道を開く。
論文 参考訳(メタデータ) (2022-11-04T12:15:18Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。