論文の概要: An approach to optimize inference of the DIART speaker diarization pipeline
- arxiv url: http://arxiv.org/abs/2408.02341v1
- Date: Mon, 5 Aug 2024 09:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:56:46.287604
- Title: An approach to optimize inference of the DIART speaker diarization pipeline
- Title(参考訳): DIART話者ダイアリゼーションパイプラインの最適化手法
- Authors: Roman Aperdannier, Sigurd Schacht, Alexander Piazza,
- Abstract要約: 低レイテンシの話者ダイアリゼーションをオンライン話者ダイアリゼーションと呼ぶ。
DIARTパイプラインはオンライン話者ダイアリゼーションシステムである。
本研究の目的は,DIARTパイプラインの推論遅延を最適化することである。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speaker diarization answers the question "who spoke when" for an audio file. In some diarization scenarios, low latency is required for transcription. Speaker diarization with low latency is referred to as online speaker diarization. The DIART pipeline is an online speaker diarization system. It consists of a segmentation and an embedding model. The embedding model has the largest share of the overall latency. The aim of this paper is to optimize the inference latency of the DIART pipeline. Different inference optimization methods such as knowledge distilation, pruning, quantization and layer fusion are applied to the embedding model of the pipeline. It turns out that knowledge distillation optimizes the latency, but has a negative effect on the accuracy. Quantization and layer fusion also have a positive influence on the latency without worsening the accuracy. Pruning, on the other hand, does not improve latency.
- Abstract(参考訳): 話者ダイアリゼーションは、オーディオファイルに対して「誰がいつ話したか」という質問に答える。
ダイアリゼーションのシナリオでは、低レイテンシが書き起こしに必要である。
低レイテンシの話者ダイアリゼーションをオンライン話者ダイアリゼーションと呼ぶ。
DIARTパイプラインはオンライン話者ダイアリゼーションシステムである。
セグメンテーションと埋め込みモデルで構成される。
埋め込みモデルは全体のレイテンシの最大の部分を占めている。
本研究の目的は,DIARTパイプラインの推論遅延を最適化することである。
パイプラインの埋め込みモデルには, 知識の分散, プルーニング, 量子化, 層融合などの異なる推論最適化手法が適用される。
知識蒸留はレイテンシを最適化するが、精度に悪影響を及ぼすことがわかった。
量子化と層融合は、精度を悪化させることなく遅延に肯定的な影響を与える。
一方、プルーニングはレイテンシを改善しない。
関連論文リスト
- Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency [44.99833362998488]
遅延とは、音声入力から対応する話者ラベルの出力までの時間である。
DIART-pipeline では、埋め込みモデルである pyannote/embedding で最低レイテンシを実現する。
FS-EENDシステムも同様に優れたレイテンシを示している。
論文 参考訳(メタデータ) (2024-07-05T06:54:27Z) - Short-Term Memory Convolutions [0.0]
本稿では,STMC(Short-Term Memory Convolution)と呼ばれる,推論時間レイテンシとメモリ消費の最小化手法を提案する。
STMCベースのモデルのトレーニングは、畳み込みニューラルネットワーク(CNN)のみに基づくため、より速く、より安定している。
音声分離では, 出力品質に影響を与えることなく, 5倍の推論時間短縮と2倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2023-02-08T20:52:24Z) - Multi-mode Transformer Transducer with Stochastic Future Context [53.005638503544866]
マルチモード音声認識モデルは、より長期のコンテキストを処理して高い精度を達成することができ、遅延予算が柔軟でない場合には、モデルが信頼できる精度を達成することができる。
マルチモードのASRモデルに匹敵する競合が,異なるレイテンシ予算でトレーニングされた,競争力のあるストリーミングベースラインのセットであることを示す。
論文 参考訳(メタデータ) (2021-06-17T18:42:11Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z) - Low Latency ASR for Simultaneous Speech Translation [27.213294097841853]
我々は,音声認識と音声翻訳モジュールの両コンポーネントのレイテンシを低減するために,いくつかの手法を開発した。
ストリーム復号と動的出力更新のためのプロトコルを用いて,ランオン復号とストリーム復号時の安定部分仮説を同定する手法を組み合わせた。
この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sまで性能を犠牲にすることなく更新されることはない。
論文 参考訳(メタデータ) (2020-03-22T13:37:05Z) - Scaling Up Online Speech Recognition Using ConvNets [33.75588539732141]
我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
論文 参考訳(メタデータ) (2020-01-27T12:55:02Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。