論文の概要: ALIGN: Adversarial Learning for Generalizable Speech Neuroprosthesis
- arxiv url: http://arxiv.org/abs/2603.18299v1
- Date: Wed, 18 Mar 2026 21:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.857445
- Title: ALIGN: Adversarial Learning for Generalizable Speech Neuroprosthesis
- Title(参考訳): ALIGN : 一般化可能な音声神経補綴のための逆学習
- Authors: Zhanqi Zhang, Shun Li, Bernardo L. Sabatini, Mikio Aoi, Gal Mishne,
- Abstract要約: 皮質内脳-コンピュータインターフェース(BCI)は、録音セッション間でプールされたデータに基づいてトレーニングされた場合、神経活動から音声を高精度に復号することができる。
半教師付きクロスセッション適応のためのマルチドメイン逆ニューラルネットワークに基づくセッション不変学習フレームワークであるALIGNを提案する。
- 参考スコア(独自算出の注目度): 8.585361192120576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intracortical brain-computer interfaces (BCIs) can decode speech from neural activity with high accuracy when trained on data pooled across recording sessions. In realistic deployment, however, models must generalize to new sessions without labeled data, and performance often degrades due to cross-session nonstationarities (e.g., electrode shifts, neural turnover, and changes in user strategy). In this paper, we propose ALIGN, a session-invariant learning framework based on multi-domain adversarial neural networks for semi-supervised cross-session adaptation. ALIGN trains a feature encoder jointly with a phoneme classifier and a domain classifier operating on the latent representation. Through adversarial optimization, the encoder is encouraged to preserve task-relevant information while suppressing session-specific cues. We evaluate ALIGN on intracortical speech decoding and find that it generalizes consistently better to previously unseen sessions, improving both phoneme error rate and word error rate relative to baselines. These results indicate that adversarial domain alignment is an effective approach for mitigating session-level distribution shift and enabling robust longitudinal BCI decoding.
- Abstract(参考訳): 皮質内脳-コンピュータインターフェース(BCI)は、録音セッション間でプールされたデータに基づいてトレーニングされた場合、神経活動から音声を高精度に復号することができる。
しかし、現実的なデプロイメントでは、モデルはラベル付きデータなしで新しいセッションに一般化する必要がある。
本稿では,半教師付きクロスセッション適応のためのマルチドメイン対向ニューラルネットワークに基づくセッション不変学習フレームワークALIGNを提案する。
ALIGNは音素分類器と潜在表現で動作するドメイン分類器とを併用して特徴エンコーダを訓練する。
逆最適化により、エンコーダはセッション固有のキューを抑えながらタスク関連情報を保存することが推奨される。
頭蓋内音声復号におけるALIGNの評価を行い,従来見られなかったセッションよりも一貫した一般化を実現し,ベースラインに対する音素誤り率と単語誤り率を改善した。
これらの結果から, 対向領域アライメントは, セッションレベルの分布シフトを緩和し, 頑健な縦型BCIデコーディングを実現するための効果的なアプローチであることが示唆された。
関連論文リスト
- SPINT: Spatial Permutation-Invariant Neural Transformer for Consistent Intracortical Motor Decoding [24.243269278855415]
皮質内脳-コンピュータインタフェース (Intracortical Brain-Computer Interfaces, IBCI) は、運動障害のある個人が運動機能やコミュニケーション能力を取り戻すことができるように、神経集団の活動から振る舞いを復号することを目的としている。
長期iBCIにおける重要な課題は、記録された人口の構成とチューニングプロファイルが記録セッションを通して不安定である、ニューラル記録の非定常性である。
本稿では,非順序のニューラルネットワーク上で直接動作する行動復号化フレームワークであるSPINTを紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:20:19Z) - Generalizable, real-time neural decoding with hybrid state-space models [19.90083268518243]
本稿では、クロスアテンションモジュールによる個別スパイクトークン化と、再帰状態空間モデル(SSM)のバックボーンを組み合わせた、新しいハイブリッドアーキテクチャPOSSMを提案する。
サル運動タスクの皮質内復号におけるPOSSMの復号性能と推論速度を評価し,臨床応用に拡張することを示す。
これらすべてのタスクにおいて、POSSMは、最先端のトランスフォーマーに匹敵する復号精度を推論コストのごく一部で達成している。
論文 参考訳(メタデータ) (2025-06-05T17:57:08Z) - Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation [1.3586572110652484]
少数のクラスインクリメンタルな学習は、限られた受信データから生じる課題に対処する。
我々は、表現空間を洗練させ、識別力を高め、より良い一般化をもたらすための教師付きコントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-07-27T14:16:25Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。