論文の概要: On-device Streaming Discrete Speech Units
- arxiv url: http://arxiv.org/abs/2506.01845v1
- Date: Mon, 02 Jun 2025 16:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.325083
- Title: On-device Streaming Discrete Speech Units
- Title(参考訳): オンデバイスストリーミング離散音声ユニット
- Authors: Kwanghee Choi, Masao Someki, Emma Strubell, Shinji Watanabe,
- Abstract要約: 離散音声単位(DSU)は、自己教師型音声モデル(S3M)の特徴をクラスタリングすることに由来する。
その結果,6.5%の文字誤り率(CER)を相対的に増加させるだけで,浮動小数点演算(FLOP)を50%削減できることがわかった。
これらの知見は,資源制約環境下でのリアルタイム音声処理におけるDSUの可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 44.283670285928274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete speech units (DSUs) are derived from clustering the features of self-supervised speech models (S3Ms). DSUs offer significant advantages for on-device streaming speech applications due to their rich phonetic information, high transmission efficiency, and seamless integration with large language models. However, conventional DSU-based approaches are impractical as they require full-length speech input and computationally expensive S3Ms. In this work, we reduce both the attention window and the model size while preserving the effectiveness of DSUs. Our results demonstrate that we can reduce floating-point operations (FLOPs) by 50% with only a relative increase of 6.5% in character error rate (CER) on the ML-SUPERB 1h dataset. These findings highlight the potential of DSUs for real-time speech processing in resource-constrained environments.
- Abstract(参考訳): 離散音声単位(DSU)は、自己教師付き音声モデル(S3M)の特徴をクラスタリングすることに由来する。
DSUは、リッチな音声情報、高い伝送効率、大規模言語モデルとのシームレスな統合により、デバイス上でのストリーミング音声アプリケーションに大きな利点をもたらす。
しかし、従来のDSUベースのアプローチは、完全な音声入力と計算コストのかかるS3Mを必要とするため、実用的ではない。
本研究では,DSUの有効性を保ちながら,注目窓とモデルサイズの両方を削減する。
その結果,ML-SUPERB 1hデータセット上の文字誤り率(CER)を相対的に6.5%増加させるだけで,浮動小数点演算(FLOP)を50%削減できることがわかった。
これらの知見は,資源制約環境下でのリアルタイム音声処理におけるDSUの可能性を明らかにするものである。
関連論文リスト
- EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Compact Speech Translation Models via Discrete Speech Units Pretraining [75.27125825975858]
本手法は,SSSモデルから抽出した離散音声単位(DSU)に基づく。
本手法では, コンパクト化に加えて, 低リソース設定にも適用できるため, 文字起こしは不要である。
論文 参考訳(メタデータ) (2024-02-29T16:36:51Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings [27.577882924447284]
音声からの教師なしワード(UWS)は有用だが、難しい作業である。
UWSにおける生成単位の可利用性について、5つの音声認識モデルを比較した。
以上の結果から,音声の離散化のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T12:50:37Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。