論文の概要: LEAF: A Learnable Frontend for Audio Classification
- arxiv url: http://arxiv.org/abs/2101.08596v1
- Date: Thu, 21 Jan 2021 13:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:44:59.749303
- Title: LEAF: A Learnable Frontend for Audio Classification
- Title(参考訳): LEAF: オーディオ分類のための学習可能なフロントエンド
- Authors: Neil Zeghidour, Olivier Teboul, F\'elix de Chaumont Quitry, Marco
Tagliasacchi
- Abstract要約: mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
- 参考スコア(独自算出の注目度): 18.696215611965204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mel-filterbanks are fixed, engineered audio features which emulate human
perception and have been used through the history of audio understanding up to
today. However, their undeniable qualities are counterbalanced by the
fundamental limitations of handmade representations. In this work we show that
we can train a single learnable frontend that outperforms mel-filterbanks on a
wide range of audio signals, including speech, music, audio events and animal
sounds, providing a general-purpose learned frontend for audio classification.
To do so, we introduce a new principled, lightweight, fully learnable
architecture that can be used as a drop-in replacement of mel-filterbanks. Our
system learns all operations of audio features extraction, from filtering to
pooling, compression and normalization, and can be integrated into any neural
network at a negligible parameter cost. We perform multi-task training on eight
diverse audio classification tasks, and show consistent improvements of our
model over mel-filterbanks and previous learnable alternatives. Moreover, our
system outperforms the current state-of-the-art learnable frontend on Audioset,
with orders of magnitude fewer parameters.
- Abstract(参考訳): メルフィルターバンクは、人間の知覚をエミュレートする、固定されたオーディオ機能で、現在までの音声理解の歴史を通じて使われている。
しかし、その不確定な性質は手作り表現の基本的な限界によって相反する。
本研究では,メルフィルタバンクを,音声,音楽,音声イベント,動物音など幅広い音声信号で上回る1つの学習可能なフロントエンドを訓練できることを示し,音声分類のための汎用学習フロントエンドを提供する。
そこで我々は,メルフィルタバンクのドロップイン代替として使用可能な,原則付きで軽量で完全に学習可能なアーキテクチャを提案する。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
我々は8つの多様な音声分類タスクでマルチタスクトレーニングを行い、メルフィルタバンクや従来の学習可能な代替品よりもモデルの一貫した改善を示す。
さらに,本システムは,現在学習可能な音声セットのフロントエンドを,桁違いに少ないパラメータで上回っている。
関連論文リスト
- Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - BYOL for Audio: Self-Supervised Learning for General-Purpose Audio
Representation [40.116109908079935]
BYOL-Aは、汎用音声表現を学習するためのBYOLに基づくオーディオ自己監督学習方法です。
正規化と拡張技術の組み合わせにより、byol-aは様々な下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-11T14:32:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。