論文の概要: You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection
- arxiv url: http://arxiv.org/abs/2109.00962v1
- Date: Wed, 1 Sep 2021 12:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 13:41:06.927006
- Title: You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection
- Title(参考訳): 一度だけ聞く: 音のセグメンテーションと音のイベント検出のためのYOLOライクなアルゴリズム
- Authors: Satvik Venkatesh, David Moffat, Eduardo Reck Miranda
- Abstract要約: 私たちは、あなただけに耳を傾ける(YOHO)という新しいアプローチを提示します。
フレームベース分類の代わりに音響境界の検出を回帰問題に変換する。
YOHOは、最先端の畳み込みリカレントニューラルネットワークよりも高いF測定値と低いエラー率を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio segmentation and sound event detection are crucial topics in machine
listening that aim to detect acoustic classes and their respective boundaries.
It is useful for audio-content analysis, speech recognition, audio-indexing,
and music information retrieval. In recent years, most research articles adopt
segmentation-by-classification. This technique divides audio into small frames
and individually performs classification on these frames. In this paper, we
present a novel approach called You Only Hear Once (YOHO), which is inspired by
the YOLO algorithm popularly adopted in Computer Vision. We convert the
detection of acoustic boundaries into a regression problem instead of
frame-based classification. This is done by having separate output neurons to
detect the presence of an audio class and predict its start and end points.
YOHO obtained a higher F-measure and lower error rate than the state-of-the-art
Convolutional Recurrent Neural Network on multiple datasets. As YOHO is purely
a convolutional neural network and has no recurrent layers, it is faster during
inference. In addition, as this approach is more end-to-end and predicts
acoustic boundaries directly, it is significantly quicker during
post-processing and smoothing.
- Abstract(参考訳): 音声セグメンテーションと音響イベント検出は、音響クラスとその境界を検出することを目的としたマシンリスニングにおいて重要なトピックである。
音声コンテンツ分析、音声認識、オーディオインデクシング、音楽情報検索に有用である。
近年、ほとんどの研究論文では分類別セグメンテーションが採用されている。
この手法は、音声を小さなフレームに分割し、個々のフレームを個別に分類する。
本稿では,コンピュータビジョンに広く採用されているYOLOアルゴリズムにインスパイアされた,You Only Hear Once (YOHO) という新しいアプローチを提案する。
音響境界の検出をフレームに基づく分類ではなく回帰問題に変換する。
これは、オーディオクラスの存在を検出し、その開始点と終了点を予測するために、別々の出力ニューロンを持つことによって行われる。
yohoは、複数のデータセット上のconvolutional recurrent neural networkよりも高いf-measureと低いエラーレートを得た。
YOHOは純粋に畳み込みニューラルネットワークであり、リカレント層を持たないため、推論時に高速である。
さらに、このアプローチはエンドツーエンドであり、音響境界を直接予測するので、後処理や平滑化においてかなり高速である。
関連論文リスト
- LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy
audios in the VOICe Dataset [8.48671341519897]
マシンリスニングにおける音イベント検出(SED)は、オーディオファイル内の異なる音を識別し、オーディオ内の特定の音イベントの開始と終了を識別する。
本稿では,VOICe データセット上での YOHO アルゴリズムの性能について検討する。
YOHOはVOICeデータセットの論文で報告された最高のパフォーマンスのSEDアルゴリズムを上回ったり、少なくとも一致させることができ、より少ない時間で推論を行うことができる。
論文 参考訳(メタデータ) (2021-11-01T18:58:50Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。