論文の概要: EfficientLEAF: A Faster LEarnable Audio Frontend of Questionable Use
- arxiv url: http://arxiv.org/abs/2207.05508v1
- Date: Tue, 12 Jul 2022 13:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 19:33:21.893961
- Title: EfficientLEAF: A Faster LEarnable Audio Frontend of Questionable Use
- Title(参考訳): EfficientLEAF: より高速な質問可能なオーディオフロントエンド
- Authors: Jan Schl\"uter, Gerald Gutenbrunner
- Abstract要約: 音声分類において、パラメータがほとんどない識別可能な聴覚フィルタバンクは、ハードコードされたスペクトログラムと生オーディオの間の中間領域をカバーする。
LEAF (arXiv:2101.08596), Per-Channel Energy Normalization (PCEN) と組み合わせたGaborベースのフィルタバンクは,有望な結果を示しているが,計算コストが高い。
非均一な畳み込みカーネルサイズとストライドにより、PCENを並列化可能な演算に置き換えることで、より効率的に同様の結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In audio classification, differentiable auditory filterbanks with few
parameters cover the middle ground between hard-coded spectrograms and raw
audio. LEAF (arXiv:2101.08596), a Gabor-based filterbank combined with
Per-Channel Energy Normalization (PCEN), has shown promising results, but is
computationally expensive. With inhomogeneous convolution kernel sizes and
strides, and by replacing PCEN with better parallelizable operations, we can
reach similar results more efficiently. In experiments on six audio
classification tasks, our frontend matches the accuracy of LEAF at 3% of the
cost, but both fail to consistently outperform a fixed mel filterbank. The
quest for learnable audio frontends is not solved.
- Abstract(参考訳): 音声分類において、パラメータがほとんどない識別可能な聴覚フィルタバンクは、ハードコードされたスペクトログラムと生オーディオの間の中間領域をカバーする。
LEAF (arXiv:2101.08596), Per-Channel Energy Normalization (PCEN) と組み合わせたGaborベースのフィルタバンクは,有望な結果を示しているが,計算コストが高い。
非均一な畳み込みカーネルサイズとストライドにより、PCENをより良い並列化操作に置き換えることで、より効率的に同様の結果が得られる。
6つの音声分類タスクの実験では、フロントエンドはLEAFの精度を3%のコストで一致させるが、どちらも固定されたメルフィルタバンクを一貫して上回りません。
学習可能なオーディオフロントエンドの探求は解決されていない。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Parameterized Channel Normalization for Far-field Deep Speaker
Verification [21.237143465298505]
我々は、チャネルごとのエネルギー正規化(PCEN)とパラメータ化ケプストラム平均正規化(PCMN)の2つのパラメトリック正規化手法に注目した。
我々は,近年の大規模遠距離音声コーパスであるHi-MIAの性能評価を行った。
提案手法は, 整合マイクロホンと整合マイクロホン条件下での等価誤差率に対して, 最大33.5%, 39.5%の相対的改善を達成し, 従来のメルフィルタバンク特性より優れていた。
論文 参考訳(メタデータ) (2021-09-24T16:22:31Z) - LEAF: A Learnable Frontend for Audio Classification [18.696215611965204]
mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
論文 参考訳(メタデータ) (2021-01-21T13:25:58Z) - DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in
Non-ideal Audio Signals [19.053492887246826]
本稿では,大量の音声からフィルタバンク設計を推定する深層学習手法を提案する。
このようなフィルタバンクの目的は、劣化、短時間、多言語音声などの非理想的音声条件に対して頑健な特徴を抽出することである。
論文 参考訳(メタデータ) (2020-08-26T16:50:26Z) - Optimization of data-driven filterbank for automatic speaker
verification [8.175789701289512]
与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動型フィルタ設計法を提案する。
提案手法の主な利点は、ラベルなし音声データの量が非常に少ないことである。
提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。
論文 参考訳(メタデータ) (2020-07-21T11:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。