論文の概要: From Minutes to Days: Scaling Intracranial Speech Decoding with Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2512.15830v1
- Date: Wed, 17 Dec 2025 17:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.75406
- Title: From Minutes to Days: Scaling Intracranial Speech Decoding with Supervised Pretraining
- Title(参考訳): 分から日へ:事前訓練による頭蓋内音声デコーディングのスケーリング
- Authors: Linnea Evanson, Mingfang, Zhang, Hubert Banville, Saarang Panchavati, Pierre Bourdillon, Jean-Rémi King,
- Abstract要約: 臨床モニタリング中の患者からの1週間の頭蓋内およびオーディオ記録を活用するための枠組みを提案する。
我々の対照的な学習モデルは、古典的な実験データにのみ訓練されたモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 25.146772033032764
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Decoding speech from brain activity has typically relied on limited neural recordings collected during short and highly controlled experiments. Here, we introduce a framework to leverage week-long intracranial and audio recordings from patients undergoing clinical monitoring, effectively increasing the training dataset size by over two orders of magnitude. With this pretraining, our contrastive learning model substantially outperforms models trained solely on classic experimental data, with gains that scale log-linearly with dataset size. Analysis of the learned representations reveals that, while brain activity represents speech features, its global structure largely drifts across days, highlighting the need for models that explicitly account for cross-day variability. Overall, our approach opens a scalable path toward decoding and modeling brain representations in both real-life and controlled task settings.
- Abstract(参考訳): 脳活動からの音声の復号は通常、短時間で高度に制御された実験で収集された限られた神経記録に依存している。
本稿では,臨床モニタリング中の患者からの1週間の頭蓋内およびオーディオ記録を活用し,トレーニングデータセットを2桁以上の規模で効果的に拡大する枠組みを提案する。
この事前トレーニングにより、我々のコントラスト学習モデルは、古典的な実験データのみに基づいてトレーニングされたモデルよりも大幅に優れ、データセットサイズと対数的にスケールするゲインが得られます。
学習された表現の分析によると、脳の活動は音声の特徴を表すが、そのグローバルな構造は数日にわたって漂流し、日々の変動を明示的に説明するモデルの必要性を強調している。
全体として、我々の手法は、実際のタスク設定と制御されたタスク設定の両方において、脳の表現をデコードしモデル化するためのスケーラブルな経路を開く。
関連論文リスト
- Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning [3.649801602551928]
我々は、異種脳記録から学ぶための自己教師型目標とアーキテクチャを共に開発する。
約400時間のMEGデータと900の被験者にスケールすると、私たちのアプローチは、参加者、データセット、タスク、さらには新しい被験者への一般化を示しています。
最先端モデルの15~27%の改善を実現し、非侵襲的なデータと外科的復号性能を一致させる。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Aligning brain functions boosts the decoding of visual semantics in
novel subjects [3.226564454654026]
脳の反応をビデオや静止画像に合わせることで脳の復号化を促進することを提案する。
提案手法はオブジェクト外デコード性能を最大75%向上させる。
また、テスト対象者に対して100分未満のデータが得られる場合、古典的な単一オブジェクトアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T15:55:20Z) - Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - A Unified, Scalable Framework for Neural Population Decoding [12.052847252465826]
神経活動の集団動態をモデル化するためのトレーニングフレームワークとアーキテクチャを導入する。
我々は,ヒト以外の霊長類7種の大規模データセットに基づいて訓練された大規模マルチセッションモデルを構築した。
論文 参考訳(メタデータ) (2023-10-24T17:58:26Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Evaluating deep transfer learning for whole-brain cognitive decoding [11.898286908882561]
転送学習(TL)は、少数のサンプルを持つデータセットにおける深層学習(DL)モデルの性能向上に適している。
本稿では,全脳機能型磁気共鳴画像(fMRI)データから認識状態の復号化にDLモデルを適用するためのTLを評価した。
論文 参考訳(メタデータ) (2021-11-01T15:44:49Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。