論文の概要: LibriVAD: A Scalable Open Dataset with Deep Learning Benchmarks for Voice Activity Detection
- arxiv url: http://arxiv.org/abs/2512.17281v1
- Date: Fri, 19 Dec 2025 06:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.276057
- Title: LibriVAD: A Scalable Open Dataset with Deep Learning Benchmarks for Voice Activity Detection
- Title(参考訳): LibriVAD: 音声活動検出のためのディープラーニングベンチマークを備えたスケーラブルなオープンデータセット
- Authors: Ioannis Stylianou, Achintya kr. Sarkar, Nauman Dawalatabad, James Glass, Zheng-Hua Tan,
- Abstract要約: VAD研究の進展における重要な制限は、大規模で体系的に制御され、公開されているデータセットの欠如である。
我々は、LibriSpeechから派生したスケーラブルなオープンソースデータセットであるLibriVADを紹介する。
我々は、波形、メルケプストラル係数(MFCC)、ガンマチンフィルタバンクケプストラル係数など、複数の特徴モデルの組み合わせをベンチマークする。
実験の結果,MFCC を用いた ViT は確立されたVAD モデルよりも常に優れていた。
- 参考スコア(独自算出の注目度): 16.152944708241773
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robust Voice Activity Detection (VAD) remains a challenging task, especially under noisy, diverse, and unseen acoustic conditions. Beyond algorithmic development, a key limitation in advancing VAD research is the lack of large-scale, systematically controlled, and publicly available datasets. To address this, we introduce LibriVAD - a scalable open-source dataset derived from LibriSpeech and augmented with diverse real-world and synthetic noise sources. LibriVAD enables systematic control over speech-to-noise ratio, silence-to-speech ratio (SSR), and noise diversity, and is released in three sizes (15 GB, 150 GB, and 1.5 TB) with two variants (LibriVAD-NonConcat and LibriVAD-Concat) to support different experimental setups. We benchmark multiple feature-model combinations, including waveform, Mel-Frequency Cepstral Coefficients (MFCC), and Gammatone filter bank cepstral coefficients, and introduce the Vision Transformer (ViT) architecture for VAD. Our experiments show that ViT with MFCC features consistently outperforms established VAD models such as boosted deep neural network and convolutional long short-term memory deep neural network across seen, unseen, and out-of-distribution (OOD) conditions, including evaluation on the real-world VOiCES dataset. We further analyze the impact of dataset size and SSR on model generalization, experimentally showing that scaling up dataset size and balancing SSR noticeably and consistently enhance VAD performance under OOD conditions. All datasets, trained models, and code are publicly released to foster reproducibility and accelerate progress in VAD research.
- Abstract(参考訳): ロバスト音声活動検出(VAD)は、特に騒々しく、多様で、目に見えない音響条件下では難しい課題である。
アルゴリズム開発以外にも、VAD研究を進める上で重要な制限は、大規模で体系的に制御され、公開されているデータセットの欠如である。
この問題を解決するために、LibriSpeechから派生したスケーラブルなオープンソースデータセットであるLibriVADを紹介し、さまざまな現実世界および合成ノイズソースで拡張する。
LibriVADは、音声と音声の比、沈黙と音声の比(SSR)、ノイズの多様性を体系的に制御することができ、異なる実験的なセットアップをサポートするために2つの変種(LibriVAD-NonConcatとLibriVAD-Concat)を持つ3つのサイズ(15 GB、150 GB、1.5 TB)でリリースされている。
本稿では,波形,Mel-Frequency Cepstral Coefficients (MFCC), Gammatone filter bank cepstral coefficientsなど,複数の特徴モデルの組み合わせをベンチマークし,VADのためのVision Transformer (ViT)アーキテクチャを導入する。
我々の実験によると、MFCC を用いた ViT は、現実世界の VOiCES データセットの評価を含む、視界、見えない、およびアウト・オブ・ディストリビューション(OOD) 条件を越えて、強化された深層ニューラルネットワークや畳み込み長短期記憶深度ニューラルネットワークのような確立された VAD モデルよりも一貫して優れている。
さらに、データセットサイズとSSRがモデル一般化に与える影響を解析し、データセットサイズをスケールアップし、SSRを顕著にバランスさせ、OOD条件下でのVAD性能を一貫して向上させることを実験的に示す。
すべてのデータセット、トレーニングされたモデル、コードは公開され、再現性を高め、VAD研究の進展を加速します。
関連論文リスト
- DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic Scenes [46.0445214387366]
空間音響および音響信号処理において,方向推定(DOA)が重要である。
奥行き分離可能な畳み込みに基づく軽量なDOA推定モデルであるLightDOAを提案する。
実験結果から,LightDOAは様々な音響シーンで良好な精度とロバスト性が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-11T09:15:06Z) - AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset [11.179608136803447]
異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
既存のアプローチは視覚データのみに依存しており、困難な状況下では信頼できない。
大規模な同期音声-視覚の欠如は、マルチモーダルな異常認識の進展を妨げている。
論文 参考訳(メタデータ) (2025-10-15T14:56:00Z) - TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation [48.61855865678161]
視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
論文 参考訳(メタデータ) (2025-07-24T16:04:55Z) - AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。
提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文 参考訳(メタデータ) (2025-06-08T16:43:05Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - IncepFormerNet: A multi-scale multi-head attention network for SSVEP classification [12.935583315234553]
本研究では,Inception と Transformer アーキテクチャのハイブリッドモデルである IncepFormerNet を提案する。
IncepFormerNetは、異なる大きさの並列畳み込みカーネルを用いて、時系列データから、マルチスケールの時間情報を積極的に抽出する。
SSVEPデータのスペクトル特性に基づいて特徴を抽出するために,フィルタバンク手法を利用する。
論文 参考訳(メタデータ) (2025-02-04T13:04:03Z) - TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々はTIGERがパラメータ数を94.3%削減し、MACを95.3%削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。