Fugu-MT 論文翻訳(概要): Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning Framework

論文の概要: Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning Framework

arxiv url: http://arxiv.org/abs/2206.13476v1
Date: Mon, 27 Jun 2022 17:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-28 14:16:08.076671
Title: Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning Framework
Title（参考訳）: マルチタスク学習フレームワークにおける音響イベントタグがシーン分類に及ぼす影響
Authors: Rahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros Matsoukas
Abstract要約: マルチタスクネットワークにおいて,アコースティックイベントタギングを補助タスクとして使用すると,ASCの性能が向上することを示す。この改善は、AETの使用による正規化効果によるものであり、ネットワークによる音響事象の識別能力の改善によるものではないと結論付けている。
参考スコア（独自算出の注目度）: 11.342656546079366
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Acoustic events are sounds with well-defined spectro-temporal characteristics which can be associated with the physical objects generating them. Acoustic scenes are collections of such acoustic events in no specific temporal order. Given this natural linkage between events and scenes, a common belief is that the ability to classify events must help in the classification of scenes. This has led to several efforts attempting to do well on Acoustic Event Tagging (AET) and Acoustic Scene Classification (ASC) using a multi-task network. However, in these efforts, improvement in one task does not guarantee an improvement in the other, suggesting a tension between ASC and AET. It is unclear if improvements in AET translates to improvements in ASC. We explore this conundrum through an extensive empirical study and show that under certain conditions, using AET as an auxiliary task in the multi-task network consistently improves ASC performance. Additionally, ASC performance further improves with the AET data-set size and is not sensitive to the choice of events or the number of events in the AET data-set. We conclude that this improvement in ASC performance comes from the regularization effect of using AET and not from the network's improved ability to discern between acoustic events.
Abstract（参考訳）: 音響イベントは、適切に定義された分光時間特性を持つ音であり、それらを生成する物理オブジェクトと関連付けることができる。音響シーンは、特定の時間順序でこのような音響イベントのコレクションである。イベントとシーンの自然な結びつきを考えると、イベントを分類する能力はシーンの分類に有効である、という考え方が一般的である。これにより,マルチタスクネットワークを用いた音響イベントタギング (AET) と音響シーン分類 (ASC) をうまく行おうとする試みがいくつか行われている。しかし、これらの取り組みでは、一方のタスクの改善は他方のタスクの改善を保証するものではないため、ASCとAETの緊張関係が示唆される。 AETの改善がASCの改善に繋がるかどうかは不明である。本研究では,AETをマルチタスクネットワークにおける補助的タスクとして用いることにより,ASCの性能が一貫して向上することを示す。さらに、ASCのパフォーマンスはAETデータセットのサイズをさらに改善し、AETデータセット内のイベントの選択やイベントの数に敏感ではない。 ASCの性能改善は、AETの使用による正規化効果によるものであって、アコースティックイベントの識別能力の向上によるものではないと結論付けている。

関連論文リスト

Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-06T18:00:14Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。 AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-08-04T07:48:12Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文参考訳（メタデータ） (2024-07-07T13:20:21Z)
Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文参考訳（メタデータ） (2023-11-08T05:18:57Z)
Robust, General, and Low Complexity Acoustic Scene Classification Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。 ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文参考訳（メタデータ） (2022-10-16T19:07:21Z)
Binaural Signal Representations for Joint Sound Event Detection and Acoustic Scene Classification [3.300149824239397]
音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める、広く研究されている2つのオーディオタスクである。音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
論文参考訳（メタデータ） (2022-09-13T11:29:00Z)
Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文参考訳（メタデータ） (2022-07-15T22:41:30Z)
Robust Feature Learning on Long-Duration Sounds for Acoustic Scene Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-11T03:33:05Z)
Sound Event Detection in Urban Audio With Single and Multi-Rate PCEN [5.951376149931151]
チャネルごとのエネルギー正規化(PCEN)は、重なり合うイベントを伴うマルチクラス設定において、ログスケールメル周波数スペクトログラムよりも大幅に性能が向上する。本稿では,クラスごとに改善を示すが,クラス間の性能は劣る。新たな手法であるMulti-Rate PCEN (MRPCEN) を用いたPCENを用いたクラス間性能について検討する。
論文参考訳（メタデータ） (2021-02-06T01:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。