Fugu-MT 論文翻訳(概要): LEAF: A Learnable Frontend for Audio Classification

論文の概要: LEAF: A Learnable Frontend for Audio Classification

arxiv url: http://arxiv.org/abs/2101.08596v1
Date: Thu, 21 Jan 2021 13:25:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-21 07:44:59.749303
Title: LEAF: A Learnable Frontend for Audio Classification
Title（参考訳）: LEAF: オーディオ分類のための学習可能なフロントエンド
Authors: Neil Zeghidour, Olivier Teboul, F\'elix de Chaumont Quitry, Marco Tagliasacchi
Abstract要約: mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
参考スコア（独自算出の注目度）: 18.696215611965204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mel-filterbanks are fixed, engineered audio features which emulate human perception and have been used through the history of audio understanding up to today. However, their undeniable qualities are counterbalanced by the fundamental limitations of handmade representations. In this work we show that we can train a single learnable frontend that outperforms mel-filterbanks on a wide range of audio signals, including speech, music, audio events and animal sounds, providing a general-purpose learned frontend for audio classification. To do so, we introduce a new principled, lightweight, fully learnable architecture that can be used as a drop-in replacement of mel-filterbanks. Our system learns all operations of audio features extraction, from filtering to pooling, compression and normalization, and can be integrated into any neural network at a negligible parameter cost. We perform multi-task training on eight diverse audio classification tasks, and show consistent improvements of our model over mel-filterbanks and previous learnable alternatives. Moreover, our system outperforms the current state-of-the-art learnable frontend on Audioset, with orders of magnitude fewer parameters.
Abstract（参考訳）: メルフィルターバンクは、人間の知覚をエミュレートする、固定されたオーディオ機能で、現在までの音声理解の歴史を通じて使われている。しかし、その不確定な性質は手作り表現の基本的な限界によって相反する。本研究では,メルフィルタバンクを,音声,音楽,音声イベント,動物音など幅広い音声信号で上回る1つの学習可能なフロントエンドを訓練できることを示し,音声分類のための汎用学習フロントエンドを提供する。そこで我々は,メルフィルタバンクのドロップイン代替として使用可能な,原則付きで軽量で完全に学習可能なアーキテクチャを提案する。本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。我々は8つの多様な音声分類タスクでマルチタスクトレーニングを行い、メルフィルタバンクや従来の学習可能な代替品よりもモデルの一貫した改善を示す。さらに,本システムは,現在学習可能な音声セットのフロントエンドを,桁違いに少ないパラメータで上回っている。

関連論文リスト

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文参考訳（メタデータ） (2022-12-09T17:34:53Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文参考訳（メタデータ） (2021-12-08T10:30:52Z)
Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文参考訳（メタデータ） (2020-10-21T11:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。