論文の概要: Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study
- arxiv url: http://arxiv.org/abs/2110.03174v1
- Date: Thu, 7 Oct 2021 04:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:29:08.051038
- Title: Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study
- Title(参考訳): 音響イベント検出のための音声知識の伝達--経験的研究
- Authors: Dawei Liang, Yangyang Shi, Yun Wang, Nayan Singhal, Alex Xiao,
Jonathan Shaw, Edison Thomaz, Ozlem Kalinli, Mike Seltzer
- Abstract要約: 本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 11.825240267691209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of common events and scenes from audio is useful for extracting and
understanding human contexts in daily life. Prior studies have shown that
leveraging knowledge from a relevant domain is beneficial for a target acoustic
event detection (AED) process. Inspired by the observation that many
human-centered acoustic events in daily life involve voice elements, this paper
investigates the potential of transferring high-level voice representations
extracted from a public speaker dataset to enrich an AED pipeline. Towards this
end, we develop a dual-branch neural network architecture for the joint
learning of voice and acoustic features during an AED process and conduct
thorough empirical studies to examine the performance on the public AudioSet
[1] with different types of inputs. Our main observations are that: 1) Joint
learning of audio and voice inputs improves the AED performance (mean average
precision) for both a CNN baseline (0.292 vs 0.134 mAP) and a TALNet [2]
baseline (0.361 vs 0.351 mAP); 2) Augmenting the extra voice features is
critical to maximize the model performance with dual inputs.
- Abstract(参考訳): 音声からの共通事象や場面の検出は、日常生活における人間の文脈の抽出や理解に有用である。
先行研究により、関連する領域からの知識を活用することは、ターゲット音響事象検出(AED)プロセスに有用であることが示されている。
日常生活における人間中心の音響イベントの多くが音声要素を伴っているという観測から着想を得て,公的な話者データセットから抽出した高レベル音声表現をAEDパイプラインに拡張する可能性を検討した。
この目的のために、AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発し、様々な入力で公共のAudioSet [1]の性能を調べるための徹底的な実証的研究を行った。
私たちの主な観察は
1)音声入力と音声入力の合同学習により、cnnベースライン(0.292対0.134マップ)とtalnet [2]ベースライン(0.361対0.351マップ)のaed性能(平均精度)が向上する。
2)二重入力によるモデル性能の最大化には,追加音声機能の拡張が不可欠である。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。