論文の概要: LEAF: A Learnable Frontend for Audio Classification
- arxiv url: http://arxiv.org/abs/2101.08596v1
- Date: Thu, 21 Jan 2021 13:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:44:59.749303
- Title: LEAF: A Learnable Frontend for Audio Classification
- Title(参考訳): LEAF: オーディオ分類のための学習可能なフロントエンド
- Authors: Neil Zeghidour, Olivier Teboul, F\'elix de Chaumont Quitry, Marco
Tagliasacchi
- Abstract要約: mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
- 参考スコア(独自算出の注目度): 18.696215611965204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mel-filterbanks are fixed, engineered audio features which emulate human
perception and have been used through the history of audio understanding up to
today. However, their undeniable qualities are counterbalanced by the
fundamental limitations of handmade representations. In this work we show that
we can train a single learnable frontend that outperforms mel-filterbanks on a
wide range of audio signals, including speech, music, audio events and animal
sounds, providing a general-purpose learned frontend for audio classification.
To do so, we introduce a new principled, lightweight, fully learnable
architecture that can be used as a drop-in replacement of mel-filterbanks. Our
system learns all operations of audio features extraction, from filtering to
pooling, compression and normalization, and can be integrated into any neural
network at a negligible parameter cost. We perform multi-task training on eight
diverse audio classification tasks, and show consistent improvements of our
model over mel-filterbanks and previous learnable alternatives. Moreover, our
system outperforms the current state-of-the-art learnable frontend on Audioset,
with orders of magnitude fewer parameters.
- Abstract(参考訳): メルフィルターバンクは、人間の知覚をエミュレートする、固定されたオーディオ機能で、現在までの音声理解の歴史を通じて使われている。
しかし、その不確定な性質は手作り表現の基本的な限界によって相反する。
本研究では,メルフィルタバンクを,音声,音楽,音声イベント,動物音など幅広い音声信号で上回る1つの学習可能なフロントエンドを訓練できることを示し,音声分類のための汎用学習フロントエンドを提供する。
そこで我々は,メルフィルタバンクのドロップイン代替として使用可能な,原則付きで軽量で完全に学習可能なアーキテクチャを提案する。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
我々は8つの多様な音声分類タスクでマルチタスクトレーニングを行い、メルフィルタバンクや従来の学習可能な代替品よりもモデルの一貫した改善を示す。
さらに,本システムは,現在学習可能な音声セットのフロントエンドを,桁違いに少ないパラメータで上回っている。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。