論文の概要: Learning Stage-wise GANs for Whistle Extraction in Time-Frequency
Spectrograms
- arxiv url: http://arxiv.org/abs/2304.02714v1
- Date: Wed, 5 Apr 2023 19:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 16:09:19.401015
- Title: Learning Stage-wise GANs for Whistle Extraction in Time-Frequency
Spectrograms
- Title(参考訳): 時間周波数スペクトログラムにおけるホイッスル抽出のための段階的gan学習
- Authors: Pu Li, Marie Roch, Holger Klinck, Erica Fleishman, Douglas Gillespie,
Eva-Marie Nosal, Yu Shiu, Xiaobai Liu
- Abstract要約: ホイッスル抽出は、時間周波数スペクトログラムをポリリンとして導出することを目的としている。
歯を生やしたクジラにとって、口笛抽出の結果は、動物の存在量、種同一性、社会活動の分析の基盤となる。
本稿では,モデル深層学習に適した新たなwhiデータをコンパイルする,ステージワイズ生成逆ネットワーク(GAN)の枠組みを提案する。
- 参考スコア(独自算出の注目度): 7.4230142517830915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Whistle contour extraction aims to derive animal whistles from time-frequency
spectrograms as polylines. For toothed whales, whistle extraction results can
serve as the basis for analyzing animal abundance, species identity, and social
activities. During the last few decades, as long-term recording systems have
become affordable, automated whistle extraction algorithms were proposed to
process large volumes of recording data. Recently, a deep learning-based method
demonstrated superior performance in extracting whistles under varying noise
conditions. However, training such networks requires a large amount of
labor-intensive annotation, which is not available for many species. To
overcome this limitation, we present a framework of stage-wise generative
adversarial networks (GANs), which compile new whistle data suitable for deep
model training via three stages: generation of background noise in the
spectrogram, generation of whistle contours, and generation of whistle signals.
By separating the generation of different components in the samples, our
framework composes visually promising whistle data and labels even when few
expert annotated data are available. Regardless of the amount of
human-annotated data, the proposed data augmentation framework leads to a
consistent improvement in performance of the whistle extraction model, with a
maximum increase of 1.69 in the whistle extraction mean F1-score. Our
stage-wise GAN also surpasses one single GAN in improving whistle extraction
models with augmented data. The data and code will be available at
https://github.com/Paul-LiPu/CompositeGAN\_WhistleAugment.
- Abstract(参考訳): ホイッスル輪郭抽出は、時間周波数スペクトログラムをポリリンとして導出することを目的としている。
歯付きクジラの場合、ホイッスル抽出結果は動物の存在量、種同一性、社会活動の分析の基礎となる。
過去数十年間、長期記録システムが安価になったため、大量の記録データを処理するための自動ホイッスル抽出アルゴリズムが提案された。
近年, 深層学習に基づく手法により, 様々な騒音条件下でのホイッスル抽出性能が向上した。
しかし、そのようなネットワークのトレーニングには大量の労働集約的なアノテーションが必要であり、多くの種で利用できない。
この制限を克服するために,spectrogram における背景雑音の発生,whis パターンの生成,whis 信号の生成の3段階を通じて,深層モデル学習に適した新たなwhis データをコンパイルする段階的生成逆ネットワーク (gans) の枠組みを提案する。
サンプル中の異なるコンポーネントの生成を分離することにより、専門家のアノテートデータが少ない場合でも、視覚的に有望なホイッスルデータとラベルを構成する。
人間の注釈付きデータの量にかかわらず、提案したデータ拡張フレームワークは、ホイッスル抽出平均F1スコアにおいて最大1.69の増加とともに、ホイッスル抽出モデルの性能が一貫した改善をもたらす。
当社のステージワイズganは,拡張データによるホイッスル抽出モデルの改善においても,単一のganを越えている。
データとコードはhttps://github.com/Paul-LiPu/CompositeGAN\_WhistleAugmentで入手できる。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Iterative Pseudo-Labeling with Deep Feature Annotation and
Confidence-Based Sampling [127.46527972920383]
大規模で注釈付きデータセットが利用できない場合には、ディープニューラルネットワークのトレーニングは難しい。
我々は、最も確実な教師なしサンプルを選択して、深層ニューラルネットワークを反復的に訓練することで、最近の反復的擬似ラベル技術であるDeep Featureを改善した。
まず最初に、自己学習されたディープニューラルネットワークであるベースラインの最適な設定を確認し、異なる信頼しきい値に対してDeepFAを評価する。
論文 参考訳(メタデータ) (2021-09-06T20:02:13Z) - Ensemble Augmentation for Deep Neural Networks Using 1-D Time Series
Vibration Data [0.0]
時系列データは、データ駆動技術で使用される生データ表現の基本的なタイプの1つである。
Deep Neural Networks(DNN)は、最適なパフォーマンスを得るために、巨大なラベル付きトレーニングサンプルを必要とする。
本研究では,この制限を克服するために,アンサンブル拡張と呼ばれるデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-08-06T20:04:29Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。