論文の概要: Window Size Versus Accuracy Experiments in Voice Activity Detectors
- arxiv url: http://arxiv.org/abs/2601.17270v1
- Date: Sat, 24 Jan 2026 02:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.492144
- Title: Window Size Versus Accuracy Experiments in Voice Activity Detectors
- Title(参考訳): 音声活動検出器におけるウィンドウサイズバーサス精度実験
- Authors: Max McKinnon, Samir Khaki, Chandan KA Reddy, William Huang,
- Abstract要約: 実世界のデジタルオーディオストリームの集合における3つのVADアルゴリズムの精度に対するウィンドウサイズの影響を解析する。
本結果は,VADシステムの最適化のための実用的なリファレンスを提供する。
- 参考スコア(独自算出の注目度): 11.453863384447237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice activity detection (VAD) plays a vital role in enabling applications such as speech recognition. We analyze the impact of window size on the accuracy of three VAD algorithms: Silero, WebRTC, and Root Mean Square (RMS) across a set of diverse real-world digital audio streams. We additionally explore the use of hysteresis on top of each VAD output. Our results offer practical references for optimizing VAD systems. Silero significantly outperforms WebRTC and RMS, and hysteresis provides a benefit for WebRTC.
- Abstract(参考訳): 音声活動検出(VAD)は,音声認識などの応用を実現する上で重要な役割を担っている。
我々は,3つのVADアルゴリズム – Silero,WebRTC,Root Mean Square (RMS) – の精度に対するウィンドウサイズの影響を分析する。
さらに、各VAD出力上でのヒステリシスの使用についても検討する。
本結果は,VADシステムの最適化のための実用的なリファレンスを提供する。
SileroはWebRTCとRMSを著しく上回り、ヒステリシスはWebRTCの利点を提供する。
関連論文リスト
- Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Speech enhancement aided end-to-end multi-task learning for voice
activity detection [40.44466027163059]
音声強調は音声活動検出(VAD)に役立つが、性能改善は限られている。
VADのための音声強調支援型エンドツーエンドマルチタスクモデルを提案する。
mSI-SDRは、トレーニングプロセスにおいて、VAD情報を使用して、音声強調デコーダの出力を隠蔽する。
論文 参考訳(メタデータ) (2020-10-23T15:35:03Z) - Multi-Window Data Augmentation Approach for Speech Emotion Recognition [58.987211083697645]
音声感情認識のためのMWA-SER(Multi-Window Data Augmentation)アプローチを提案する。
MWA-SERは、音声拡張法の設計とディープラーニングモデルの構築という、2つの主要な概念に焦点を当てた一元的アプローチである。
深層学習モデルと組み合わせることで,音声の感情認識性能が向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T22:15:03Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。