論文の概要: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2406.04328v4
- Date: Fri, 31 Jan 2025 23:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:25.769440
- Title: The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning
- Title(参考訳): 脳の微妙な教訓:自己監督型学習による音声デコーディングのスケーリング
- Authors: Dulhan Jayalath, Gilad Landau, Brendan Shillingford, Mark Woolrich, Oiwi Parker Jones,
- Abstract要約: 我々は、異種脳記録から学ぶための自己教師型目標とアーキテクチャを共に開発する。
約400時間のMEGデータと900の被験者にスケールすると、私たちのアプローチは、参加者、データセット、タスク、さらには新しい被験者への一般化を示しています。
最先端モデルの15~27%の改善を実現し、非侵襲的なデータと外科的復号性能を一致させる。
- 参考スコア(独自算出の注目度): 3.649801602551928
- License:
- Abstract: The past few years have seen remarkable progress in the decoding of speech from brain activity, primarily driven by large single-subject datasets. However, due to individual variation, such as anatomy, and differences in task design and scanning hardware, leveraging data across subjects and datasets remains challenging. In turn, the field has not benefited from the growing number of open neural data repositories to exploit large-scale deep learning. To address this, we develop neuroscience-informed self-supervised objectives, together with an architecture, for learning from heterogeneous brain recordings. Scaling to nearly 400 hours of MEG data and 900 subjects, our approach shows generalisation across participants, datasets, tasks, and even to novel subjects. It achieves improvements of 15-27% over state-of-the-art models and matches surgical decoding performance with non-invasive data. These advances unlock the potential for scaling speech decoding models beyond the current frontier.
- Abstract(参考訳): 過去数年間、脳の活動から発せられる音声の復号は、主に大きな単一対象のデータセットによって顕著に進歩してきた。
しかし、解剖学のような個人差やタスク設計とスキャンハードウェアの違いにより、対象物やデータセットにまたがるデータを活用することは依然として困難である。
逆に、大規模なディープラーニングを活用するオープンなニューラルネットワークリポジトリの増加は、この分野の恩恵を受けていない。
そこで我々は,脳の異質な記録から学習するための,神経科学による自己教師対象をアーキテクチャとともに開発する。
約400時間のMEGデータと900の被験者にスケールすると、私たちのアプローチは、参加者、データセット、タスク、さらには新しい被験者への一般化を示しています。
最先端モデルの15~27%の改善を実現し、非侵襲的なデータと外科的復号性能を一致させる。
これらの進歩は、現在のフロンティアを越えて、音声復号モデルをスケールする可能性を解き放つ。
関連論文リスト
- Resolving Domain Shift For Representations Of Speech In Non-Invasive Brain Recordings [3.5297361401370044]
脳磁図(MEG)を用いた非侵襲的データ収集に焦点を当てた。
私たちの知る限りでは、この研究はMEGニューロイメージングデータに基づく機能レベルの深層学習の初めての応用である。
論文 参考訳(メタデータ) (2024-10-25T21:56:23Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - BrainSegFounder: Towards 3D Foundation Models for Neuroimage Segmentation [6.5388528484686885]
本研究は,医療基盤モデルの創出に向けた新しいアプローチを紹介する。
本稿では,視覚変換器を用いた2段階事前学習手法を提案する。
BrainFounderは、これまでの勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を実演している。
論文 参考訳(メタデータ) (2024-06-14T19:49:45Z) - Aligning brain functions boosts the decoding of visual semantics in
novel subjects [3.226564454654026]
脳の反応をビデオや静止画像に合わせることで脳の復号化を促進することを提案する。
提案手法はオブジェクト外デコード性能を最大75%向上させる。
また、テスト対象者に対して100分未満のデータが得られる場合、古典的な単一オブジェクトアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T15:55:20Z) - Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - Fighting the scanner effect in brain MRI segmentation with a progressive
level-of-detail network trained on multi-site data [1.6379393441314491]
LOD-Brainは3D畳み込みニューラルネットワークで、どの部位からでも脳データを分割できる。
最先端の結果を生成するが、内部サイトと外部サイトのパフォーマンスには大きな違いはない。
その移植性は、さまざまな医療機関、患者集団、画像技術製造業者に対して大規模な応用の道を開く。
論文 参考訳(メタデータ) (2022-11-04T12:15:18Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - 2021 BEETL Competition: Advancing Transfer Learning for Subject
Independence & Heterogenous EEG Data Sets [89.84774119537087]
我々は、診断とBCI(Brain-Computer-Interface)に関する2つの伝達学習課題を設計する。
第1タスクは、患者全体にわたる自動睡眠ステージアノテーションに対処する医療診断に重点を置いている。
タスク2はBrain-Computer Interface (BCI)に集中しており、被験者とデータセットの両方にわたる運動画像のデコードに対処する。
論文 参考訳(メタデータ) (2022-02-14T12:12:20Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。