論文の概要: Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification
- arxiv url: http://arxiv.org/abs/2108.05008v1
- Date: Wed, 11 Aug 2021 03:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:21:43.464091
- Title: Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification
- Title(参考訳): 音響シーン分類のための長調音のロバスト特徴学習
- Authors: Yuzhong Wu, Tan Lee
- Abstract要約: 音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.57150493905063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene classification (ASC) aims to identify the type of scene
(environment) in which a given audio signal is recorded. The log-mel feature
and convolutional neural network (CNN) have recently become the most popular
time-frequency (TF) feature representation and classifier in ASC. An audio
signal recorded in a scene may include various sounds overlapping in time and
frequency. The previous study suggests that separately considering the
long-duration sounds and short-duration sounds in CNN may improve ASC accuracy.
This study addresses the problem of the generalization ability of acoustic
scene classifiers. In practice, acoustic scene signals' characteristics may be
affected by various factors, such as the choice of recording devices and the
change of recording locations. When an established ASC system predicts scene
classes on audios recorded in unseen scenarios, its accuracy may drop
significantly. The long-duration sounds not only contain domain-independent
acoustic scene information, but also contain channel information determined by
the recording conditions, which is prone to over-fitting. For a more robust ASC
system, We propose a robust feature learning (RFL) framework to train the CNN.
The RFL framework down-weights CNN learning specifically on long-duration
sounds. The proposed method is to train an auxiliary classifier with only
long-duration sound information as input. The auxiliary classifier is trained
with an auxiliary loss function that assigns less learning weight to poorly
classified examples than the standard cross-entropy loss. The experimental
results show that the proposed RFL framework can obtain a more robust acoustic
scene classifier towards unseen devices and cities.
- Abstract(参考訳): 音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的とする。
log-mel機能と畳み込みニューラルネットワーク(CNN)は最近、ASCで最も人気のある時間周波数(TF)特徴表現と分類器になった。
シーンに記録された音声信号は、時間と周波数で重なり合う様々な音を含むことができる。
前報では,CNNの長調音と短調音を別々に検討することで,ASCの精度が向上する可能性が示唆された。
本研究では,音響シーン分類器の一般化能力の問題に対処する。
実際には、音響シーン信号の特性は、記録装置の選択や記録位置の変化など、様々な要因に影響される可能性がある。
確立されたASCシステムが未確認のシナリオで記録された音声のシーンクラスを予測すると、その精度は大幅に低下する可能性がある。
長音は、ドメインに依存しない音響シーン情報を含むだけでなく、録音条件によって決定されるチャンネル情報も含む。
より堅牢なASCシステムのために、我々はCNNを訓練するための堅牢な特徴学習(RFL)フレームワークを提案する。
RFLフレームワークは、長調音に特化してCNN学習をダウンウェイトする。
提案手法は,長周期音響情報のみを入力とする補助分類器を訓練する。
補助分類器は、標準のクロスエントロピー損失よりも低い分類例に学習重量を割り当てる補助損失関数で訓練される。
実験の結果,提案するRFLフレームワークは,見えないデバイスや都市に対して,より堅牢な音響シーン分類を行うことができることがわかった。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Comparative Study on Approaches to Acoustic Scene Classification using
CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。
我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。
その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文 参考訳(メタデータ) (2022-04-26T09:23:29Z) - Deep Convolutional Neural Network for Roadway Incident Surveillance
Using Audio Data [0.0]
衝突事故の特定と予測は、輸送システムの安全状態を理解する上で重要な役割を担っている。
本稿では,クラッシュイベントを正確に識別する新たなセンサユニットを提案する。
事故、タイヤスキー、ホーン、サイレンの音などの4つの事象は、道路の危険を示すために正確に識別することができる。
論文 参考訳(メタデータ) (2022-03-09T13:42:56Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Acoustic Scene Classification with Squeeze-Excitation Residual Networks [4.591851728010269]
残差学習に基づくCNNベースのASCフレームワークの精度を向上させるために,2つの新しい圧縮励起ブロックを提案する。
このような演算子を実装したブロックの振舞いは、ブロックへの入力に応じてニューラルネットワーク全体を変更することができる。
論文 参考訳(メタデータ) (2020-03-20T14:07:11Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。