論文の概要: Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task
Learning Framework
- arxiv url: http://arxiv.org/abs/2206.13476v1
- Date: Mon, 27 Jun 2022 17:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:16:08.076671
- Title: Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task
Learning Framework
- Title(参考訳): マルチタスク学習フレームワークにおける音響イベントタグがシーン分類に及ぼす影響
- Authors: Rahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros
Matsoukas
- Abstract要約: マルチタスクネットワークにおいて,アコースティックイベントタギングを補助タスクとして使用すると,ASCの性能が向上することを示す。
この改善は、AETの使用による正規化効果によるものであり、ネットワークによる音響事象の識別能力の改善によるものではないと結論付けている。
- 参考スコア(独自算出の注目度): 11.342656546079366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Acoustic events are sounds with well-defined spectro-temporal characteristics
which can be associated with the physical objects generating them. Acoustic
scenes are collections of such acoustic events in no specific temporal order.
Given this natural linkage between events and scenes, a common belief is that
the ability to classify events must help in the classification of scenes. This
has led to several efforts attempting to do well on Acoustic Event Tagging
(AET) and Acoustic Scene Classification (ASC) using a multi-task network.
However, in these efforts, improvement in one task does not guarantee an
improvement in the other, suggesting a tension between ASC and AET. It is
unclear if improvements in AET translates to improvements in ASC. We explore
this conundrum through an extensive empirical study and show that under certain
conditions, using AET as an auxiliary task in the multi-task network
consistently improves ASC performance. Additionally, ASC performance further
improves with the AET data-set size and is not sensitive to the choice of
events or the number of events in the AET data-set. We conclude that this
improvement in ASC performance comes from the regularization effect of using
AET and not from the network's improved ability to discern between acoustic
events.
- Abstract(参考訳): 音響イベントは、適切に定義された分光時間特性を持つ音であり、それらを生成する物理オブジェクトと関連付けることができる。
音響シーンは、特定の時間順序でこのような音響イベントのコレクションである。
イベントとシーンの自然な結びつきを考えると、イベントを分類する能力はシーンの分類に有効である、という考え方が一般的である。
これにより,マルチタスクネットワークを用いた音響イベントタギング (AET) と音響シーン分類 (ASC) をうまく行おうとする試みがいくつか行われている。
しかし、これらの取り組みでは、一方のタスクの改善は他方のタスクの改善を保証するものではないため、ASCとAETの緊張関係が示唆される。
AETの改善がASCの改善に繋がるかどうかは不明である。
本研究では,AETをマルチタスクネットワークにおける補助的タスクとして用いることにより,ASCの性能が一貫して向上することを示す。
さらに、ASCのパフォーマンスはAETデータセットのサイズをさらに改善し、AETデータセット内のイベントの選択やイベントの数に敏感ではない。
ASCの性能改善は、AETの使用による正規化効果によるものであって、アコースティックイベントの識別能力の向上によるものではないと結論付けている。
関連論文リスト
- Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Binaural Signal Representations for Joint Sound Event Detection and
Acoustic Scene Classification [3.300149824239397]
音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める、広く研究されている2つのオーディオタスクである。
音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。
本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
論文 参考訳(メタデータ) (2022-09-13T11:29:00Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Automatic Audio Captioning using Attention weighted Event based
Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。
AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文 参考訳(メタデータ) (2022-01-28T05:54:19Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Sound Event Detection in Urban Audio With Single and Multi-Rate PCEN [5.951376149931151]
チャネルごとのエネルギー正規化(PCEN)は、重なり合うイベントを伴うマルチクラス設定において、ログスケールメル周波数スペクトログラムよりも大幅に性能が向上する。
本稿では,クラスごとに改善を示すが,クラス間の性能は劣る。
新たな手法であるMulti-Rate PCEN (MRPCEN) を用いたPCENを用いたクラス間性能について検討する。
論文 参考訳(メタデータ) (2021-02-06T01:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。