論文の概要: Fast threshold optimization for multi-label audio tagging using
Surrogate gradient learning
- arxiv url: http://arxiv.org/abs/2103.00833v1
- Date: Mon, 1 Mar 2021 08:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:59:55.382837
- Title: Fast threshold optimization for multi-label audio tagging using
Surrogate gradient learning
- Title(参考訳): Surrogate gradient Learning を用いたマルチラベルオーディオタグの高速しきい値最適化
- Authors: Thomas Pellegrini (IRIT-SAMoVA), Timoth\'ee Masquelier (CERCO)
- Abstract要約: マルチラベルオーディオタグは、音声録音に一連のタグを割り当てることで構成される。
本稿では,しきい値の勾配学習のための新しい手法であるsgl-threshを提案する。
SGL-Threshは非常に高速で、多数のタグに拡張可能です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label audio tagging consists of assigning sets of tags to audio
recordings. At inference time, thresholds are applied on the confidence scores
outputted by a probabilistic classifier, in order to decide which classes are
detected active. In this work, we consider having at disposal a trained
classifier and we seek to automatically optimize the decision thresholds
according to a performance metric of interest, in our case F-measure
(micro-F1). We propose a new method, called SGL-Thresh for Surrogate Gradient
Learning of Thresholds, that makes use of gradient descent. Since F1 is not
differentiable, we propose to approximate the thresholding operation gradients
with the gradients of a sigmoid function. We report experiments on three
datasets, using state-of-the-art pre-trained deep neural networks. In all
cases, SGL-Thresh outperformed three other approaches: a default threshold
value (defThresh), an heuristic search algorithm and a method estimating F1
gradients numerically. It reached 54.9\% F1 on AudioSet eval, compared to 50.7%
with defThresh. SGL-Thresh is very fast and scalable to a large number of tags.
To facilitate reproducibility, data and source code in Pytorch are available
online: https://github.com/topel/SGL-Thresh
- Abstract(参考訳): マルチラベルオーディオタグは、音声録音に一連のタグを割り当てることで構成される。
推定時には、どのクラスがアクティブかを決定するために、確率的分類器が出力する信頼度スコアにしきい値を適用する。
本研究では,訓練された分類器を廃棄することを検討し,f-measure (micro-f1) の場合,関心のある性能指標に従って決定しきい値を自動的に最適化することを目指す。
SGL-Thresh for Surrogate Gradient Learning of Thresholds(SGL-Thresh for Surrogate Gradient Learning of Thresholds)と呼ばれる新手法を提案する。
f1は微分可能ではないので,シグモイド関数の勾配を用いてしきい値操作勾配を近似する。
最先端の事前学習型深層ニューラルネットワークを用いた3つのデータセットの実験を報告する。
いずれの場合も、SGL-Threshはデフォルトしきい値(defThresh)、ヒューリスティック検索アルゴリズム、F1勾配を数値的に推定する手法の3つのアプローチより優れていた。
AudioSetのevalでは54.9\% F1に達し、defThreshでは50.7%だった。
SGL-Threshは非常に高速で、多数のタグに拡張可能です。
再現性を容易にするため、pytorchのデータとソースコードはオンラインで入手できる。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Audio classification with Dilated Convolution with Learnable Spacings [10.89964981012741]
学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
ここでは、AudioSet分類ベンチマークを用いて、DCLSはオーディオタグ付けにも有用であることを示す。
論文 参考訳(メタデータ) (2023-09-25T09:09:54Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Morphological Classification of Extragalactic Radio Sources Using
Gradient Boosting Methods [2.064612766965483]
本研究は、その形態に基づく銀河外電波源の自動分類について研究する。
あるいは、畳み込みニューラルネットワークに対するデータ効率の良い代替手段として、勾配向上機械学習手法を提案する。
3つの提案された勾配向上手法はいずれも、画像の4分の1未満を使用して最先端の畳み込みニューラルネットワークベースの分類器より優れていた。
論文 参考訳(メタデータ) (2023-04-25T11:19:47Z) - Truncate-Split-Contrast: A Framework for Learning from Mislabeled Videos [0.0]
ノイズラベルを用いたビデオ解析のための2つの新しい手法を提案する。
1つの方法は、各カテゴリのクリーンなインスタンスとノイズの多いインスタンスを分割する最も識別性の高いチャネルを選択する。
もうひとつの戦略は、モデルトレーニングを正規化するためのクリーンなインスタンスとノイズの多いインスタンスの関係を構築することだ。
論文 参考訳(メタデータ) (2022-12-27T14:09:14Z) - RFFNet: Large-Scale Interpretable Kernel Methods via Random Fourier Features [3.0079490585515347]
RFFNetは1次最適化によってカーネルの関連性をリアルタイムで学習するスケーラブルな手法である。
提案手法はメモリフットプリントが小さく,実行時,予測誤差が低く,関連する特徴を効果的に識別できることを示す。
私たちは、Scikit-learn標準APIと結果を完全に再現するためのコードに準拠した、効率的でPyTorchベースのライブラリをユーザに提供します。
論文 参考訳(メタデータ) (2022-11-11T18:50:34Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Scalable End-to-end Recurrent Neural Network for Variable star
classification [1.2722697496405464]
本稿では,光曲線の表現を自動的に学習し,正確な自動分類を可能にするエンドツーエンドアルゴリズムを提案する。
提案手法では,データ前処理の最小化,新しい観測および光曲線の計算コストの低減,大規模データセットへのスケールアップが可能となる。
論文 参考訳(メタデータ) (2020-02-03T19:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。