論文の概要: LSTM-CNN Network for Audio Signature Analysis in Noisy Environments
- arxiv url: http://arxiv.org/abs/2312.07059v1
- Date: Tue, 12 Dec 2023 08:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:00:56.532344
- Title: LSTM-CNN Network for Audio Signature Analysis in Noisy Environments
- Title(参考訳): 雑音環境における音声信号解析のためのLSTM-CNNネットワーク
- Authors: Praveen Damacharla, Hamid Rajabalipanah, and Mohammad Hosein Fakheri
- Abstract要約: 本研究では,長期記憶畳み込みニューラルネットワーク(LSTM-CNN)に着目し,各フレームにおけるアクティブ話者数と性別をノイズの多い環境下で推定する。
講演者の最大数は10人であり, 公立都市, 産業状況, モール, 展示場, 職場, 自然の多様な組み合わせによる音声サンプルを学習目的で利用した。
この概念の証明は、数と性別を検出する上で、約0.019/0.017のトレーニング/検証MSE値で有望な性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are multiple applications to automatically count people and specify
their gender at work, exhibitions, malls, sales, and industrial usage. Although
current speech detection methods are supposed to operate well, in most
situations, in addition to genders, the number of current speakers is unknown
and the classification methods are not suitable due to many possible classes.
In this study, we focus on a long-short-term memory convolutional neural
network (LSTM-CNN) to extract time and / or frequency-dependent features of the
sound data to estimate the number / gender of simultaneous active speakers at
each frame in noisy environments. Considering the maximum number of speakers as
10, we have utilized 19000 audio samples with diverse combinations of males,
females, and background noise in public cities, industrial situations, malls,
exhibitions, workplaces, and nature for learning purposes. This proof of
concept shows promising performance with training/validation MSE values of
about 0.019/0.017 in detecting count and gender.
- Abstract(参考訳): 自動的に人を数え、仕事、展示、ショッピングモール、販売、産業利用で性別を指定する複数のアプリケーションがある。
現在の音声検出法は動作が良好であると考えられるが、ほとんどの場合、性別に加えて、現在の話者数も不明であり、多くのクラスが存在するため、分類方法が適していない。
本研究では,長期間のメモリ畳み込みニューラルネットワーク(LSTM-CNN)に着目し,音声データの時間的・周波数依存的な特徴を抽出し,各フレームにおけるアクティブ話者の数/性別をノイズの多い環境下で推定する。
最大話者数を10と考えて,公的な都市,工業的状況,モール,展示場,職場,自然環境において,男性,女性,背景雑音の組み合わせが多様である19,000個の音声サンプルを用いて学習を行った。
この概念の証明は、数と性別を検出する上で、約0.019/0.017のトレーニング/検証MSE値で有望な性能を示す。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Overlapped speech and gender detection with WavLM pre-trained features [6.054285771277486]
本稿では,フランス音声メディアにおける女性と男性間の相互作用を研究するために,重なり合う発話と性別の検出に焦点を当てる。
本稿では,膨大な音声データに基づいて事前学習を行うことの利点を生かしたWavLMモデルを提案する。
ニューラルGDは、フランスの放送ニュースALLIESデータの性別バランスの取れたサブセットに基づいてWavLM入力で訓練され、97.9%の精度が得られる。
論文 参考訳(メタデータ) (2022-09-09T08:00:47Z) - A Convolutional Neural Network Based Approach to Recognize Bangla Spoken
Digits from Speech Signal [0.0]
データセットを作成するために、1桁あたり400のノイズとノイズのないサンプルが記録されている。
MFCC(Mel Frequency Cepstrum Coefficients)は生音声データから有意な特徴を抽出するために用いられている。
畳み込みニューラルネットワーク(CNN)を用いてバングラ数桁を検出する。
提案手法は、データセット全体を通して97.1%の精度で'0-9'バングラ音声桁を認識する。
論文 参考訳(メタデータ) (2021-11-12T09:38:15Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Self-supervised Neural Audio-Visual Sound Source Localization via
Probabilistic Spatial Modeling [45.20508569656558]
本稿では,360deg画像とマルチチャンネル音声信号を用いた自己教師型トレーニング手法を提案する。
マルチチャンネル音声信号に空間情報を組み込むことで、ディープニューラルネットワーク(DNN)を訓練し、複数の音源を識別する。
また、DNNは、科学博物館で記録された実際のデータから、会話客や特定の展示物を含む物体を検出した。
論文 参考訳(メタデータ) (2020-07-28T03:52:53Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。