論文の概要: Conditioned Time-Dilated Convolutions for Sound Event Detection
- arxiv url: http://arxiv.org/abs/2007.05183v1
- Date: Fri, 10 Jul 2020 06:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:43:11.737207
- Title: Conditioned Time-Dilated Convolutions for Sound Event Detection
- Title(参考訳): 音響イベント検出のための条件付き時間差畳み込み
- Authors: Konstantinos Drossos and Stylianos I. Mimilakis and Tuomas Virtanen
- Abstract要約: 本稿では,言語モデリングと同様に機能する時間分割畳み込みの条件付けのための新しいアルゴリズムを提案する。
我々は、無料で利用可能なTUT-SED Syntheticデータセットを使用し、フレームあたりの平均$textF_1$スコアとフレームあたりの平均エラー率を用いて、メソッドの性能を評価する。
- 参考スコア(独自算出の注目度): 20.883760606514937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event detection (SED) is the task of identifying sound events along
with their onset and offset times. A recent, convolutional neural networks
based SED method, proposed the usage of depthwise separable (DWS) and
time-dilated convolutions. DWS and time-dilated convolutions yielded
state-of-the-art results for SED, with considerable small amount of parameters.
In this work we propose the expansion of the time-dilated convolutions, by
conditioning them with jointly learned embeddings of the SED predictions by the
SED classifier. We present a novel algorithm for the conditioning of the
time-dilated convolutions which functions similarly to language modelling, and
enhances the performance of the these convolutions. We employ the freely
available TUT-SED Synthetic dataset, and we assess the performance of our
method using the average per-frame $\text{F}_{1}$ score and average per-frame
error rate, over the 10 experiments. We achieve an increase of 2\% (from 0.63
to 0.65) at the average $\text{F}_{1}$ score (the higher the better) and a
decrease of 3\% (from 0.50 to 0.47) at the error rate (the lower the better).
- Abstract(参考訳): 音響イベント検出 (sound event detection, sed) は、その開始時間とオフセット時間とともに音響イベントを識別するタスクである。
最近の畳み込みニューラルネットワークに基づくSED法では,DWS(Deepwise Separable)と時間差畳み込み(Time-Dilated Convolutions)が提案されている。
DWSと時間差の畳み込みはSEDの最先端の結果となり、かなりの量のパラメータが得られた。
本研究では,SED分類器によるSED予測の埋め込みを共同で学習することで,時間分割畳み込みの拡張を提案する。
本稿では,言語モデルと同様に機能する時間拡張畳み込みの条件付けのための新しいアルゴリズムを提案し,それらの畳み込みの性能を向上させる。
我々は,TUT-SED Syntheticデータセットを無償で使用し,平均フレーム当たり$\text{F}_{1}$スコアと平均フレーム毎エラー率を用いて,本手法の性能を評価する。
平均$\text{f}_{1}$スコアで2\%(0.63から0.65)、エラー率で3\%(0.50から0.47)の低下(より低い)を達成する。
関連論文リスト
- ProtoSeg: A Prototype-Based Point Cloud Instance Segmentation Method [6.632158868486343]
本稿では,3次元点雲上でインスタンスセグメンテーションを行うニューラルネットワークアーキテクチャを提案する。
本稿では, 並列に係数とプロトタイプを学習し, 組み合わせて実例予測を行う手法を提案する。
提案手法は,最先端技術よりも28%高速であるだけでなく,標準偏差が低いことを示す。
論文 参考訳(メタデータ) (2024-10-03T10:05:27Z) - Few-shot Learning using Data Augmentation and Time-Frequency
Transformation for Time Series Classification [6.830148185797109]
データ拡張による新しい数ショット学習フレームワークを提案する。
シークエンス・スペクトログラム・ニューラルネット(SSNN)も開発している。
本手法は,時系列分類における数ショット問題への対処法の適用性を実証する。
論文 参考訳(メタデータ) (2023-11-06T15:32:50Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Score-Based Generative Modeling through Stochastic Differential
Equations [114.39209003111723]
複素データ分布を雑音を注入することによって既知の事前分布に変換する微分方程式を提案する。
対応する逆時間SDEは、ノイズを緩やかに除去し、先行分布をデータ分布に戻す。
スコアベース生成モデリングの進歩を活用することで、これらのスコアをニューラルネットワークで正確に推定することができる。
スコアベース生成モデルから1024×1024画像の高忠実度生成を初めて示す。
論文 参考訳(メタデータ) (2020-11-26T19:39:10Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Sound Event Detection with Depthwise Separable and Dilated Convolutions [23.104644393058123]
最先端音事象検出(SED)法は通常、入力された音声信号から有用な特徴を抽出するために一連の畳み込みニューラルネットワーク(CNN)を用いる。
本稿では,CNNを深く分離可能な畳み込みに置き換えることと,RNNを拡張畳み込みに置き換えることを提案する。
平均フレーム単位のF1スコアと平均エラー率をそれぞれ4.6%、平均エラー率を3.8%向上させる。
論文 参考訳(メタデータ) (2020-02-02T19:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。