論文の概要: Measuring Robustness of Speech Recognition from MEG Signals Under Distribution Shift
- arxiv url: http://arxiv.org/abs/2604.04129v1
- Date: Sun, 05 Apr 2026 14:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.934202
- Title: Measuring Robustness of Speech Recognition from MEG Signals Under Distribution Shift
- Title(参考訳): 分布シフト下におけるMEG信号からの音声認識のロバスト性の測定
- Authors: Sheng-You Chien, Bo-Yi Mao, Yi-Ning Chang, Po-Chih Kuo,
- Abstract要約: 本研究では,2025 PNPLコンペティションのLibriBrain音素分類ベンチマークを用いて,非侵襲MEG信号からの頑健な音声関連復号について検討した。
残差畳み込みニューラルネットワーク(CNN)、STFTベースのCNN、CNN-Transformerハイブリッドを比較し、グループ平均化、ラベルバランス、繰り返しグループ化、正規化戦略、データ拡張の効果を検討した。
- 参考スコア(独自算出の注目度): 2.1932521132244474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates robust speech-related decoding from non-invasive MEG signals using the LibriBrain phoneme-classification benchmark from the 2025 PNPL competition. We compare residual convolutional neural networks (CNNs), an STFT-based CNN, and a CNN--Transformer hybrid, while also examining the effects of group averaging, label balancing, repeated grouping, normalization strategies, and data augmentation. Across our in-house implementations, preprocessing and data-configuration choices matter more than additional architectural complexity, among which instance normalization emerges as the most influential modification for generalization. The strongest of our own models, a CNN with group averaging, label balancing, repeated grouping, and instance normalization, achieves 60.95% F1-macro on the test split, compared with 39.53% for the plain CNN baseline. However, most of our models, without instance normalization, show substantial validation-to-test degradation, indicating that distribution shift induced by different normalization statistics is a major obstacle to generalization in our experiments. By contrast, MEGConformer maintains 64.09% F1-macro on both validation and test, and saliency-map analysis is qualitatively consistent with this contrast: weaker models exhibit more concentrated or repetitive phoneme-sensitive patterns across splits, whereas MEGConformer appears more distributed. Overall, the results suggest that improving the reliability of non-invasive phoneme decoding will likely require better handling of normalization-related distribution shift while also addressing the challenge of single-trial decoding.
- Abstract(参考訳): 本研究では,2025 PNPLコンペティションのLibriBrain音素分類ベンチマークを用いて,非侵襲MEG信号からの頑健な音声関連復号について検討した。
残差畳み込みニューラルネットワーク(CNN)、STFTベースのCNN、CNN-Transformerハイブリッドを比較し、グループ平均化、ラベルバランス、繰り返しグループ化、正規化戦略、データ拡張の効果を検討した。
社内実装全体において、事前処理とデータ構成の選択は、アーキテクチャ上の複雑さ以上のものを必要とします。
グループ平均化,ラベルバランス,繰り返しグループ化,インスタンス正規化を備えたCNNが,テストスプリットで60.95%のF1マクロを達成したのに対して,通常のCNNベースラインでは39.53%であった。
しかし, 実例正規化を伴わないモデルでは, 正則化統計値の違いによる分布シフトが一般化の大きな障害となることが示唆された。
対照的に、MEGConformerは検証とテストの両方で64.09%のF1マクロを維持しており、Saliency-map解析はこのコントラストと定性的に一致している。
以上の結果から,非侵襲音素復号法の信頼性向上には,正規化に伴う分布シフトの取扱いが向上すると同時に,単音素復号化の課題にも対処する必要がある可能性が示唆された。
関連論文リスト
- Benchmarking CNN-based Models against Transformer-based Models for Abdominal Multi-Organ Segmentation on the RATIC Dataset [3.428885759047836]
腹部CT検査における多臓器分画は, 診断・治療に不可欠である。
トランスフォーマーベースのアーキテクチャは、長距離依存関係をモデル化する能力により、最近注目を集めている。
本研究では,UNETR,SwinUNETR,UNETR++の3つのハイブリッドトランスフォーマーベースモデルと,強力なCNNベースラインであるSegResNetを比較検討した。
論文 参考訳(メタデータ) (2026-03-19T08:35:11Z) - Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta [0.0]
メコンデルタにおける無形文化財(ICH)の分類は、ユニークな課題である。
本稿では,ハイブリッドなCoAtNetアーキテクチャをモデルスープに統合する堅牢なフレームワークを提案する。
提案手法は,72.36%のTop-1精度と69.28%のマクロF1スコアを達成し,高いベースラインを達成している。
論文 参考訳(メタデータ) (2026-03-02T18:50:15Z) - Pretraining Transformer-Based Models on Diffusion-Generated Synthetic Graphs for Alzheimer's Disease Prediction [0.0]
本稿では,合成データ生成とグラフ表現学習と伝達学習を組み合わせたTransformerベースの診断フレームワークを提案する。
実世界のNACCデータセットを用いて、クラス条件付き拡散確率モデル(DDPM)を訓練し、大規模な合成コホートを生成する。
モダリティ固有のグラフトランスフォーマーエンコーダは、まずこの合成データに基づいて、堅牢なクラス識別表現を学習する。
論文 参考訳(メタデータ) (2025-11-24T19:34:53Z) - Correcting False Alarms from Unseen: Adapting Graph Anomaly Detectors at Test Time [60.341117019125214]
グラフ異常検出(GAD)における未確認正規pattErnsの修正のための,軽量かつプラグアンドプレイなテスト時間適応フレームワークを提案する。
意味的混乱に対処するために、シフトしたデータと元のデータとをグラフ属性レベルで整合させるグラフ整合器を用いる。
10個の実世界のデータセットに対する大規模な実験により、TUNEは事前学習されたGADモデルの合成パターンと実際の見えない正常パターンの両方への一般化性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-11-10T12:10:05Z) - Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification [0.5390869741300152]
教師付き分類におけるクラス不均衡は、多数派に対する予測をバイアスすることでモデル性能を低下させることが多い。
多数サンプルをマイノリティ分布にマッピングするパラメトリック変換を学習するオーバーサンプリングフレームワークを導入する。
提案手法は,グローバルアライメントのためのトランスフォーメーションと真のマイノリティサンプル間の平均最大誤差(MMD)を最小化する。
論文 参考訳(メタデータ) (2025-09-15T01:47:29Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Learning Multi-Modal Volumetric Prostate Registration with Weak
Inter-Subject Spatial Correspondence [2.6894568533991543]
MRシークエンスにおける前立腺の位置に関する事前情報のための補助入力をニューラルネットワークに導入する。
MR-TRUS前立腺データのラベルが弱いことから,最先端のディープラーニング手法に匹敵する登録品質を示した。
論文 参考訳(メタデータ) (2021-02-09T16:48:59Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。