論文の概要: Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint
- arxiv url: http://arxiv.org/abs/2107.14658v1
- Date: Fri, 30 Jul 2021 14:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 12:49:10.393652
- Title: Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices
using squeeze-excitation technique and low-complexity constraint
- Title(参考訳): タスク1A DCASE 2021:圧縮励起法と低複雑さ制約を用いたミスマッチデバイスによる音響シーン分類
- Authors: Javier Naranjo-Alcazar, Sergi Perez-Castanos, Maximo Cobos, Francesc
J. Ferri, Pedro Zuccarello
- Abstract要約: 音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
本報告のサブタスクは、モデルの複雑さによって制約されるASC問題に対応する。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
- 参考スコア(独自算出の注目度): 4.4973334555746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic scene classification (ASC) is one of the most popular problems in
the field of machine listening. The objective of this problem is to classify an
audio clip into one of the predefined scenes using only the audio data. This
problem has considerably progressed over the years in the different editions of
DCASE. It usually has several subtasks that allow to tackle this problem with
different approaches. The subtask presented in this report corresponds to a ASC
problem that is constrained by the complexity of the model as well as having
audio recorded from different devices, known as mismatch devices (real and
simulated). The work presented in this report follows the research line carried
out by the team in previous years. Specifically, a system based on two steps is
proposed: a two-dimensional representation of the audio using the Gamamtone
filter bank and a convolutional neural network using squeeze-excitation
techniques. The presented system outperforms the baseline by about 17
percentage points.
- Abstract(参考訳): 音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。
この問題の目的は、オーディオデータのみを用いて、あらかじめ定義されたシーンの1つにオーディオクリップを分類することである。
この問題はDCASEの異なるエディションで長年にわたって大きく進歩してきた。
通常、異なるアプローチでこの問題に取り組むことができるいくつかのサブタスクがあります。
本報告で提示されるサブタスクは、モデルの複雑さに制約されたASC問題に対応し、また、ミスマッチデバイス(リアルおよびシミュレート)として知られる異なるデバイスから音声を録音する。
このレポートで提示された作業は、前年にチームが実施した調査ラインに従っている。
具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と,圧縮励起を用いた畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。
提示されたシステムは、ベースラインを約17ポイント上回る。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - DCASE 2022: Comparative Analysis Of CNNs For Acoustic Scene
Classification Under Low-Complexity Considerations [1.6704594205447996]
本稿では,従来のCNNとConv-mixerの2つの異なるネットワークアーキテクチャについて比較検討する。
両ネットワークは競合が必要とするベースラインを超えているが、従来のCNNの方が高い性能を示している。
Conv-mixerアーキテクチャに基づくソリューションは、より軽量なソリューションであるにもかかわらず、パフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2022-06-16T09:03:56Z) - A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection [9.914246432182873]
様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
論文 参考訳(メタデータ) (2022-05-11T15:55:31Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - Spectrum Correction: Acoustic Scene Classification with Mismatched
Recording Devices [9.404066316241051]
機械学習アルゴリズムは、限られたデバイスからのオーディオ録音で訓練された場合、周波数応答の異なる他のデバイスを使用して記録されたサンプルにうまく一般化できない可能性がある。
本研究では,この問題に対処するための比較的簡単な手法を提案する。
このアプローチの2つのバリエーションが提示される。まず、複数のデバイスからの整列した例を必要とし、次に、この要件を緩和する。
論文 参考訳(メタデータ) (2021-05-25T11:53:17Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。