論文の概要: Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency
- arxiv url: http://arxiv.org/abs/2407.04293v1
- Date: Fri, 5 Jul 2024 06:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:21:30.705425
- Title: Systematic Evaluation of Online Speaker Diarization Systems Regarding their Latency
- Title(参考訳): 遅延を考慮したオンライン話者ダイアリゼーションシステムのシステム評価
- Authors: Roman Aperdannier, Sigurd Schacht, Alexander Piazza,
- Abstract要約: 遅延とは、音声入力から対応する話者ラベルの出力までの時間である。
DIART-pipeline では、埋め込みモデルである pyannote/embedding で最低レイテンシを実現する。
FS-EENDシステムも同様に優れたレイテンシを示している。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, different online speaker diarization systems are evaluated on the same hardware with the same test data with regard to their latency. The latency is the time span from audio input to the output of the corresponding speaker label. As part of the evaluation, various model combinations within the DIART framework, a diarization system based on the online clustering algorithm UIS-RNN-SML, and the end-to-end online diarization system FS-EEND are compared. The lowest latency is achieved for the DIART-pipeline with the embedding model pyannote/embedding and the segmentation model pyannote/segmentation. The FS-EEND system shows a similarly good latency. In general there is currently no published research that compares several online diarization systems in terms of their latency. This makes this work even more relevant.
- Abstract(参考訳): 本稿では、異なるオンライン話者ダイアリゼーションシステムについて、そのレイテンシに関して、同じテストデータを持つ同じハードウェア上で評価する。
遅延とは、音声入力から対応する話者ラベルの出力までの時間である。
評価の一環として、DIARTフレームワーク内の様々なモデルの組み合わせ、オンラインクラスタリングアルゴリズムであるUIS-RNN-SMLに基づくダイアリゼーションシステム、およびエンドツーエンドのオンラインダイアリゼーションシステムFS-EENDを比較した。
組込みモデル pyannote/embedding とセグメンテーションモデル pyannote/segmentation でDIART-pipeline で最低レイテンシを実現する。
FS-EENDシステムも同様に優れたレイテンシを示している。
一般に、いくつかのオンラインダイアリゼーションシステムと比較する研究は発表されていない。
これにより、この作業はより重要になります。
関連論文リスト
- An approach to optimize inference of the DIART speaker diarization pipeline [44.99833362998488]
低レイテンシの話者ダイアリゼーションをオンライン話者ダイアリゼーションと呼ぶ。
DIARTパイプラインはオンライン話者ダイアリゼーションシステムである。
本研究の目的は,DIARTパイプラインの推論遅延を最適化することである。
論文 参考訳(メタデータ) (2024-08-05T09:38:07Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - BeatNet: CRNN and Particle Filtering for Online Joint Beat Downbeat and
Meter Tracking [21.352141245632247]
我々は、因果的畳み込みと反復的な層を利用する、関節ビート、ダウンビート、メータートラッキングのためのオンラインシステムを導入する。
提案システムでは、ダウンビートトラッキングを行うために、タイムシグネチャを付ける必要はなく、代わりにメーターを推定し、時間とともに予測を調整することができる。
トレーニング中に目に見えないGTZANデータセットの実験によると、システムは様々なオンラインビートやダウンビートトラッキングシステムより優れている。
論文 参考訳(メタデータ) (2021-08-08T06:07:59Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - A low latency ASR-free end to end spoken language understanding system [11.413018142161249]
本研究は,最小レイテンシでマイクロコントローラや組み込みシステム上で動作可能な,フットプリントの少ないシステムを提案する。
ストリーム入力音声信号が与えられた場合,処理時にストリーム全体を保持する必要がなく,セグメント単位で処理することができる。
実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-10T04:16:56Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Scaling Up Online Speech Recognition Using ConvNets [33.75588539732141]
我々は、TDS(Time-Depth Separable)畳み込みとCTC(Connectionist Temporal Classification)に基づくオンラインエンドツーエンド音声認識システムを設計する。
我々は,将来的なコンテキストを制限し,精度を維持しながらレイテンシを低減するため,コアTDSアーキテクチャを改善した。
このシステムは、よく調整されたハイブリッドASRベースラインの3倍のスループットを持ち、レイテンシも低く、単語エラー率も優れている。
論文 参考訳(メタデータ) (2020-01-27T12:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。