論文の概要: Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy
audios in the VOICe Dataset
- arxiv url: http://arxiv.org/abs/2111.01205v1
- Date: Mon, 1 Nov 2021 18:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:43:48.753289
- Title: Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy
audios in the VOICe Dataset
- Title(参考訳): 音声データセットにおける1回だけ聴く(yoho)アルゴリズムの頑健性評価
- Authors: Soham Tiwari, Kshitiz Lakhotia, Manjunath Mulimani
- Abstract要約: マシンリスニングにおける音イベント検出(SED)は、オーディオファイル内の異なる音を識別し、オーディオ内の特定の音イベントの開始と終了を識別する。
本稿では,VOICe データセット上での YOHO アルゴリズムの性能について検討する。
YOHOはVOICeデータセットの論文で報告された最高のパフォーマンスのSEDアルゴリズムを上回ったり、少なくとも一致させることができ、より少ない時間で推論を行うことができる。
- 参考スコア(独自算出の注目度): 8.48671341519897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event detection (SED) in machine listening entails identifying the
different sounds in an audio file and identifying the start and end time of a
particular sound event in the audio. SED finds use in various applications such
as audio surveillance, speech recognition, and context-based indexing and
retrieval of data in a multimedia database. However, in real-life scenarios,
the audios from various sources are seldom devoid of any interfering noise or
disturbance. In this paper, we test the performance of the You Only Hear Once
(YOHO) algorithm on noisy audio data. Inspired by the You Only Look Once (YOLO)
algorithm in computer vision, the YOHO algorithm can match the performance of
the various state-of-the-art algorithms on datasets such as Music Speech
Detection Dataset, TUT Sound Event, and Urban-SED datasets but at lower
inference times. In this paper, we explore the performance of the YOHO
algorithm on the VOICe dataset containing audio files with noise at different
sound-to-noise ratios (SNR). YOHO could outperform or at least match the best
performing SED algorithms reported in the VOICe dataset paper and make
inferences in less time.
- Abstract(参考訳): マシンリスニングにおける音響イベント検出(sed)は、オーディオファイル内の異なる音を識別し、オーディオ内の特定の音イベントの開始と終了時刻を識別する。
SEDは、音声監視、音声認識、文脈に基づくインデックス作成やマルチメディアデータベース内のデータの検索など、様々な用途で使用されている。
しかし、現実のシナリオでは、様々なソースからのオーディオは、干渉するノイズや外乱をほとんど持たない。
本稿では,ノイズの多い音声データに対して,You Only Hear Once (YOHO)アルゴリズムの性能を検証した。
コンピュータビジョンにおけるYou Only Look Once (YOLO)アルゴリズムにインスパイアされたYOHOアルゴリズムは、Music Speech Detection Dataset、TUT Sound Event、Urban-SEDデータセットなど、さまざまな最先端アルゴリズムのパフォーマンスを、低い推論時間でマッチングすることができる。
本稿では,音量比(snr)の異なる音声ファイルを含む音声データセットにおけるyohoアルゴリズムの性能について検討する。
YOHOはVOICeデータセットの論文で報告された最高のパフォーマンスのSEDアルゴリズムを上回ったり、少なくとも一致させることができる。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection [0.0]
私たちは、あなただけに耳を傾ける(YOHO)という新しいアプローチを提示します。
フレームベース分類の代わりに音響境界の検出を回帰問題に変換する。
YOHOは、最先端の畳み込みリカレントニューラルネットワークよりも高いF測定値と低いエラー率を得た。
論文 参考訳(メタデータ) (2021-09-01T12:50:16Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文 参考訳(メタデータ) (2020-02-20T21:33:07Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。