論文の概要: End-to-End Audio Strikes Back: Boosting Augmentations Towards An
Efficient Audio Classification Network
- arxiv url: http://arxiv.org/abs/2204.11479v1
- Date: Mon, 25 Apr 2022 07:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:32:34.694528
- Title: End-to-End Audio Strikes Back: Boosting Augmentations Towards An
Efficient Audio Classification Network
- Title(参考訳): エンド・ツー・エンドオーディオが復活:効率的な音声分類ネットワークに向けた強化
- Authors: Avi Gazneli, Gadi Zimerman, Tal Ridnik, Gilad Sharir, Asaf Noy
- Abstract要約: 高い一般化能力を有する効率的なエンドツーエンド1ネットワークを提案する。
本手法の有効性とロバスト性を示すため,様々な音響分類セットの実験を行った。
- 参考スコア(独自算出の注目度): 3.5173697454104844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While efficient architectures and a plethora of augmentations for end-to-end
image classification tasks have been suggested and heavily investigated,
state-of-the-art techniques for audio classifications still rely on numerous
representations of the audio signal together with large architectures,
finetuned from large datasets. By utilizing the inherited lightweight nature of
audio and novel audio augmentations, we were able to present an efficient
end-to-end1 network with strong generalization ability. Experiments on a
variety of sound classification sets demonstrate the effectiveness and
robustness of our approach, by achieving state-of-the-art results in various
settings. Public code will be available.
- Abstract(参考訳): 効率的なアーキテクチャとエンドツーエンドの画像分類タスクの多くの拡張が提案され、よく研究されているが、オーディオ分類の最先端の技術は、大きなデータセットから微調整された大きなアーキテクチャとともに、オーディオ信号の多数の表現に依存している。
音声のライトウェイトな特性と新しい音声拡張機能を利用することで,効率的なエンド・ツー・エンド1ネットワークを実現することができた。
各種音響分類セットの実験は, 各種設定における最先端結果の達成により, 提案手法の有効性とロバスト性を示す。
公開コードは利用可能である。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - Diverse Neural Audio Embeddings -- Bringing Features back ! [1.2328446298523066]
様々な特徴表現を用いて音声の埋め込みを学習する。
我々は、ピッチ、音色、ニューラル表現などの多様なオーディオ特性に対する頑健な個別の埋め込みと、エンドツーエンドアーキテクチャを通してそれを学習する。
論文 参考訳(メタデータ) (2023-09-15T20:27:47Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Speaker Recognition in Realistic Scenario Using Multimodal Data [4.373374186532439]
マルチモーダルシステムにおいて,顔と声の関節表現を学習するための2分岐ネットワークを提案する。
提案手法をVoxCeleb$1$という大規模オーディオ視覚データセット上で評価した。
論文 参考訳(メタデータ) (2023-02-25T09:11:09Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。