論文の概要: Real-time Speech Interruption Analysis: From Cloud to Client Deployment
- arxiv url: http://arxiv.org/abs/2210.13334v1
- Date: Mon, 24 Oct 2022 15:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:01:05.591891
- Title: Real-time Speech Interruption Analysis: From Cloud to Client Deployment
- Title(参考訳): リアルタイム音声遮断分析:クラウドからクライアントへの展開
- Authors: Quchen Fu, Szu-Wei Fu, Yaran Fan, Yu Wu, Zhuo Chen, Jayant Gupchup,
Ross Cutler
- Abstract要約: 我々は最近,音声の中断を検知する最初の音声中断解析モデルを開発した。
この機能をよりコスト効率が高く、環境に優しい方法で提供するため、クライアントデバイスでWavLM_SIモデルを出荷するために、モデルの複雑さとサイズを削減しました。
- 参考スコア(独自算出の注目度): 20.694024217864783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meetings are an essential form of communication for all types of
organizations, and remote collaboration systems have been much more widely used
since the COVID-19 pandemic. One major issue with remote meetings is that it is
challenging for remote participants to interrupt and speak. We have recently
developed the first speech interruption analysis model, which detects failed
speech interruptions, shows very promising performance, and is being deployed
in the cloud. To deliver this feature in a more cost-efficient and
environment-friendly way, we reduced the model complexity and size to ship the
WavLM_SI model in client devices. In this paper, we first describe how we
successfully improved the True Positive Rate (TPR) at a 1% False Positive Rate
(FPR) from 50.9% to 68.3% for the failed speech interruption detection model by
training on a larger dataset and fine-tuning. We then shrank the model size
from 222.7 MB to 9.3 MB with an acceptable loss in accuracy and reduced the
complexity from 31.2 GMACS (Giga Multiply-Accumulate Operations per Second) to
4.3 GMACS. We also estimated the environmental impact of the complexity
reduction, which can be used as a general guideline for large Transformer-based
models, and thus make those models more accessible with less computation
overhead.
- Abstract(参考訳): 会議はあらゆる種類の組織にとって不可欠なコミュニケーション形態であり、リモートコラボレーションシステムは新型コロナウイルスのパンデミック以来ずっと広く利用されている。
リモートミーティングの大きな問題のひとつは、リモート参加者が割り込んで話すことが難しいことだ。
我々は最近,故障した音声の中断を検知し,非常に有望な性能を示し,クラウドに展開する最初の音声中断解析モデルを開発した。
よりコスト効率が高く、環境に優しい方法でこの機能を提供するため、wavlm_siモデルをクライアントデバイスに出荷するためのモデルの複雑さとサイズを削減しました。
本稿では,まず,大規模データセットの学習と微調整により,発話中断検出モデルの失敗に対して,1%の偽陽性率(fpr)でtpr(true positive rate)を50.9%から68.3%に改善した方法について述べる。
次に、モデルサイズを22.7MBから9.3MBに縮小し、精度の低下を許容し、複雑さを31.2GMACS(Giga Multiply-Accumulate Operations per second)から4.3GMACSに削減した。
また,大規模トランスフォーマーモデルの汎用ガイドラインとして使用可能な複雑性低減の環境影響を推定し,計算オーバーヘッドを低減し,それらモデルへのアクセス性を高めた。
関連論文リスト
- Comet: A Communication-efficient and Performant Approximation for Private Transformer Inference [16.328220661765744]
推論性能を損なうことなく通信コストを削減するために,新しいプラグイン方式Cometを導入する。
私たちは、GLUEベンチマークデータセットでComet on BertとRoBERTaモデルを評価し、通信の少ない3.9$times$と3.5$times$ Speedupsを示しました。
論文 参考訳(メタデータ) (2024-05-24T18:43:00Z) - ResFed: Communication Efficient Federated Learning by Transmitting Deep
Compressed Residuals [24.13593410107805]
フェデレートラーニングは、学習したローカルモデルパラメータを共有することで、大規模分散クライアント間の協調トレーニングを可能にする。
モデルパラメータではなく残差を訓練用ネットワークに送信する残差ベースフェデレーション学習フレームワーク(ResFed)を導入する。
共通予測ルールを用いることで、ローカルモデルとグローバルモデルの両方が、常にクライアントとサーバで完全に回復可能である。
論文 参考訳(メタデータ) (2022-12-11T20:34:52Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Small footprint Text-Independent Speaker Verification for Embedded
Systems [7.123796359179192]
本稿では,話者検証のための2段階モデルアーキテクチャのオーダーを共通解より桁違いに小さくする。
Raspberry Pi 3BのようなIoTシステムに典型的な小型デバイスでソリューションを実行する可能性を示し、5秒の発話で200ms未満のレイテンシを持つ。
論文 参考訳(メタデータ) (2020-11-03T13:53:05Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z) - Attention based on-device streaming speech recognition with large speech
corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。
一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文 参考訳(メタデータ) (2020-01-02T04:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。