論文の概要: MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
- arxiv url: http://arxiv.org/abs/2512.01443v1
- Date: Mon, 01 Dec 2025 09:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.780087
- Title: MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
- Title(参考訳): MEGコンバータ:ロバスト音声と音素分類のためのコンバータベースMEGデコーダ
- Authors: Xabier de Zuazo, Ibon Saratxaga, Eva Navas,
- Abstract要約: We present Conformer-based decoders for the LibriBrain 2025 PNPL competition。
提案手法は,306チャネルのMEG信号にコンパクトなコンバータを適応させる。
音声検出のために、MEG指向のSpecAugmentは、MEG固有の拡張を初めて探求した。
音素分類では,逆平方根クラス重み付けと動的グルーピングローダを用いた。
- 参考スコア(独自算出の注目度): 1.0896567381206717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Conformer-based decoders for the LibriBrain 2025 PNPL competition, targeting two foundational MEG tasks: Speech Detection and Phoneme Classification. Our approach adapts a compact Conformer to raw 306-channel MEG signals, with a lightweight convolutional projection layer and task-specific heads. For Speech Detection, a MEG-oriented SpecAugment provided a first exploration of MEG-specific augmentation. For Phoneme Classification, we used inverse-square-root class weighting and a dynamic grouping loader to handle 100-sample averaged examples. In addition, a simple instance-level normalization proved critical to mitigate distribution shifts on the holdout split. Using the official Standard track splits and F1-macro for model selection, our best systems achieved 88.9% (Speech) and 65.8% (Phoneme) on the leaderboard, surpassing the competition baselines and ranking within the top-10 in both tasks. For further implementation details, the technical documentation, source code, and checkpoints are available at https://github.com/neural2speech/libribrain-experiments.
- Abstract(参考訳): We present Conformer-based decoders for the LibriBrain 2025 PNPL competition。
提案手法は,306チャネルのMEG信号に小型のコンバータを適応させ,軽量な畳み込みプロジェクション層とタスク固有ヘッドを備える。
音声検出のために、MEG指向のSpecAugmentは、MEG固有の拡張を初めて探求した。
音素分類では,逆平方根クラス重み付けと動的グルーピングローダを用いて100サンプル平均例を処理した。
さらに、単純なインスタンスレベルの正規化は、ホールドアウト分割における分散シフトを軽減するために重要であることが証明された。
公式の標準トラックスプリットとF1マクロを使用してモデル選択を行い、ベストシステムは88.9% (Speech) と65.8% (Phoneme) をリーダーボード上で達成し、両タスクでトップ10にランクインした。
さらなる実装の詳細については、テクニカルドキュメント、ソースコード、チェックポイントがhttps://github.com/neural2speech/libribrain-experimentsで公開されている。
関連論文リスト
- More Is Better: A MoE-Based Emotion Recognition Framework with Human Preference Alignment [24.56511209071154]
MER2025における半教師付き学習トラック(MER-SEMI)のソリューションを提案する。
より優れた」という原則に基づく包括的枠組みを提案し,より堅牢なMixture of Experts (MoE)感情認識システムを構築する。
我々のアプローチは、独立した専門家として多様な入力モダリティを統合する。
論文 参考訳(メタデータ) (2025-08-08T05:44:26Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。