論文の概要: Improving Post-Processing of Audio Event Detectors Using Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2208.09201v1
- Date: Fri, 19 Aug 2022 08:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:46:08.197855
- Title: Improving Post-Processing of Audio Event Detectors Using Reinforcement
Learning
- Title(参考訳): 強化学習を用いた音声イベント検出器の事後改善
- Authors: Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis
- Abstract要約: 我々は,ポストプロセッシングスタックの様々な段階における最適パラメータを共同で発見するために強化学習を用いる。
音声イベントベースのマクロF1スコアを4-5%改善できることがわかった。
- 参考スコア(独自算出の注目度): 5.758073912084364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We apply post-processing to the class probability distribution outputs of
audio event classification models and employ reinforcement learning to jointly
discover the optimal parameters for various stages of a post-processing stack,
such as the classification thresholds and the kernel sizes of median filtering
algorithms used to smooth out model predictions. To achieve this we define a
reinforcement learning environment where: 1) a state is the class probability
distribution provided by the model for a given audio sample, 2) an action is
the choice of a candidate optimal value for each parameter of the
post-processing stack, 3) the reward is based on the classification accuracy
metric we aim to optimize, which is the audio event-based macro F1-score in our
case. We apply our post-processing to the class probability distribution
outputs of two audio event classification models submitted to the DCASE Task4
2020 challenge. We find that by using reinforcement learning to discover the
optimal per-class parameters for the post-processing stack that is applied to
the outputs of audio event classification models, we can improve the audio
event-based macro F1-score (the main metric used in the DCASE challenge to
compare audio event classification accuracy) by 4-5% compared to using the same
post-processing stack with manually tuned parameters.
- Abstract(参考訳): 音声イベント分類モデルのクラス確率分布出力に後処理を適用し、強化学習を用いて、モデル予測の円滑化に使用される分類しきい値や中央フィルタリングアルゴリズムのカーネルサイズなどの後処理スタックの様々な段階の最適パラメータを共同で発見する。
これを実現するために、強化学習環境を定義します。
1) 状態は、所定のオーディオサンプルのモデルによって提供されるクラス確率分布である。
2) アクションは、処理後スタックの各パラメータに対する候補最適値の選択である。
3)報奨は,音声イベントベースのマクロF1スコアである,最適化を目的とした分類精度基準に基づく。
本稿では,DCASE Task4 2020 課題に提出された2つの音声イベント分類モデルのクラス確率分布出力に適用する。
音声イベント分類モデルの出力に適用される後処理スタックの最適パラメータを強化学習を用いて発見することにより、手動で調整されたパラメータを持つ同一の後処理スタックと比較して、音声イベントベースのマクロF1スコア(DCASEの課題である音声イベント分類精度を比較するための主要な指標)を4-5%改善できることがわかった。
関連論文リスト
- D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。