論文の概要: Knowledge Distilled Ensemble Model for sEMG-based Silent Speech
Interface
- arxiv url: http://arxiv.org/abs/2308.06533v1
- Date: Mon, 7 Aug 2023 03:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-20 16:41:29.285944
- Title: Knowledge Distilled Ensemble Model for sEMG-based Silent Speech
Interface
- Title(参考訳): sEMGに基づくサイレント音声インタフェースのための知識蒸留アンサンブルモデル
- Authors: Wenqiang Lai, Qihan Yang, Ye Mao, Endong Sun, Jiangnan Ye
- Abstract要約: 我々は,SEMGに基づくサイレント音声インタフェース(KDE-SSI)のための知識蒸留アンサンブルモデルを提案する。
我々のモデルは、26のNATO音声アルファベットデータセットを3900のデータサンプルで分類することができ、スペルによって英語の単語を生成することができる。
我々の発見は、ポータブルで実用的な機器のためのエンドツーエンドシステムに光を当てた。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice disorders affect millions of people worldwide. Surface
electromyography-based Silent Speech Interfaces (sEMG-based SSIs) have been
explored as a potential solution for decades. However, previous works were
limited by small vocabularies and manually extracted features from raw data. To
address these limitations, we propose a lightweight deep learning
knowledge-distilled ensemble model for sEMG-based SSI (KDE-SSI). Our model can
classify a 26 NATO phonetic alphabets dataset with 3900 data samples, enabling
the unambiguous generation of any English word through spelling. Extensive
experiments validate the effectiveness of KDE-SSI, achieving a test accuracy of
85.9\%. Our findings also shed light on an end-to-end system for portable,
practical equipment.
- Abstract(参考訳): 声の障害は世界中の何百万人もの人々に影響を与えます。
表面筋電図に基づくサイレント音声インタフェース (SEMGベースのSSI) は, 数十年間, 潜在的な解決策として検討されてきた。
しかし、以前の作品は小さな語彙によって制限され、生データから手作業で特徴を抽出した。
これらの制約に対処するために、sEMGベースのSSI(KDE-SSI)のための軽量なディープラーニング知識蒸留アンサンブルモデルを提案する。
本モデルは、26個のnato音素アルファベットデータセットを3900個のデータサンプルで分類し、綴りによる英語単語の曖昧な生成を可能にする。
広範な実験によりkde-ssiの有効性が検証され、85.9\%の精度が得られた。
我々の発見は、ポータブルで実用的な機器のためのエンドツーエンドシステムにも光を当てた。
関連論文リスト
- Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。