論文の概要: Elementary, My Dear Watson: Non-Invasive Neural Keyword Spotting in the LibriBrain Dataset
- arxiv url: http://arxiv.org/abs/2510.21038v2
- Date: Thu, 30 Oct 2025 10:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 13:50:54.705568
- Title: Elementary, My Dear Watson: Non-Invasive Neural Keyword Spotting in the LibriBrain Dataset
- Title(参考訳): 初等・難聴:LibriBrainデータセットにおける非侵襲的ニューラルネットワークスポッティング
- Authors: Gereon Elvers, Gilad Landau, Oiwi Parker Jones,
- Abstract要約: キーワードスポッティング(英: Keywords Spotting, KWS)は、脳とコンピュータのインターフェイスのための、プライバシーに配慮した中間タスクである。
我々は、単語レベルのデータローダとColab対応のチュートリアルを備えたpnplライブラリの更新版をリリースした。
- 参考スコア(独自算出の注目度): 1.497166779417398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-invasive brain-computer interfaces (BCIs) are beginning to benefit from large, public benchmarks. However, current benchmarks target relatively simple, foundational tasks like Speech Detection and Phoneme Classification, while application-ready results on tasks like Brain-to-Text remain elusive. We propose Keyword Spotting (KWS) as a practically applicable, privacy-aware intermediate task. Using the deep 52-hour, within-subject LibriBrain corpus, we provide standardized train/validation/test splits for reproducible benchmarking, and adopt an evaluation protocol tailored to extreme class imbalance. Concretely, we use area under the precision-recall curve (AUPRC) as a robust evaluation metric, complemented by false alarms per hour (FA/h) at fixed recall to capture user-facing trade-offs. To simplify deployment and further experimentation within the research community, we are releasing an updated version of the pnpl library with word-level dataloaders and Colab-ready tutorials. As an initial reference model, we present a compact 1-D Conv/ResNet baseline with focal loss and top-k pooling that is trainable on a single consumer-class GPU. The reference model achieves approximately 13x the permutation baseline AUPRC on held-out sessions, demonstrating the viability of the task. Exploratory analyses reveal: (i) predictable within-subject scaling - performance improves log-linearly with more training hours - and (ii) the existence of word-level factors (frequency and duration) that systematically modulate detectability.
- Abstract(参考訳): 非侵襲的脳-コンピュータインターフェース(BCI)は、大規模でパブリックなベンチマークの恩恵を受け始めている。
しかし、現在のベンチマークは、音声検出や音素分類のような比較的単純で基礎的なタスクをターゲットとしている。
本稿では,キーワードスポッティング(KWS)を実用的に適用可能な,プライバシーに配慮した中間タスクとして提案する。
52時間以内の深いLibriBrainコーパスを用いて、再現可能なベンチマークのための標準列車/バリデーション/テストスプリットを提供し、極端なクラス不均衡に適した評価プロトコルを採用する。
具体的には、高精度リコール曲線(AUPRC)に基づく領域を、固定リコール時に1時間当たりの誤報(FA/h)を補完して頑健な評価指標として使用し、ユーザ側のトレードオフを捉える。
研究コミュニティにおけるデプロイメントの簡略化とさらなる実験のために、単語レベルのデータローダとColab対応のチュートリアルを備えたpnplライブラリの更新版をリリースしています。
最初の参照モデルとして、1-D Conv/ResNetベースラインを1つのコンシューマクラスGPUでトレーニング可能な焦点損失とトップkプーリングで提示する。
参照モデルは、保留セッションにおける置換ベースライン AUPRC の約13倍を達成し、タスクの生存可能性を示す。
探索分析により明らかになる。
(i)予測可能なオブジェクト内スケーリング - パフォーマンスはトレーニング時間を増やすことでログリニアに向上します。
(2)検出可能性を体系的に調節する単語レベル因子(頻度と持続時間)の存在。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones [7.717986156838291]
CAC(Class-Agnostic counting)は、事前に定義されたカテゴリに制限されることなく、画像内のオブジェクト数を推定することを目的としている。
現在のCAC法はトレーニングのためにラベル付きデータに大きく依存している。
初となるCACフレームワークであるCountingDINOを紹介する。
論文 参考訳(メタデータ) (2025-04-23T09:48:08Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Online Continual Learning in Keyword Spotting for Low-Resource Devices
via Pooling High-Order Temporal Statistics [22.129910930772]
キーワード スポッティング(KWS)モデルは、新しいユーザ定義の単語に、以前の単語を忘れずに迅速に適応すべきである。
我々は,凍結したバックボーンを持つKWSモデルを用いて,非反復的なサンプルストリームから新たな単語を段階的に認識する組込みオンライン連続学習(EOCL)のセットアップを検討する。
本稿では,事前学習したバックボーンから抽出した音声特徴の高次モーメントを高次に計算する高次特徴空間を構築するためのTAP(Temporal Aware Pooling)を提案する。
論文 参考訳(メタデータ) (2023-07-24T10:04:27Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。