論文の概要、ライセンス

# (参考訳) 低複雑さデバイス・ロバスト型ニューラル音響シーン分類のためのロッキーチケット仮説フレームワーク [全文訳有]

A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust Neural Acoustic Scene Classification ( http://arxiv.org/abs/2107.01461v1 )

ライセンス: CC BY-SA 4.0
Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Qing Wang, Yuyang Wang, Xianjun Xia, Yuanjun Zhao, Yuzhong Wu, Yannan Wang, Jun Du, Chin-Hui Lee(参考訳) デバイス・ロバスト音響シーン分類(ASC)のための,データ拡張,知識伝達,プルーニング,量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。 具体的には、最近提案されたLTH(Lottery Ticket hypothesis)と呼ばれる先進的なニューラルネットワーク解析機構を利用して、低リソース環境におけるASCタスクに取り組み、少量の非ゼロモデルパラメータに関連するサブネットワークニューラルモデルを見つける。 低複雑さ音響モデリングにおけるLTHの有効性を,様々なデータ拡張および圧縮手法を用いて評価し,低複雑さマルチデバイスASCのための効率的なジョイントフレームワークであるAustratic Lotteryについて報告する。 Acoustic Lotteryは1/10^{4}$でASCモデルを圧縮し、圧縮されていないシードモデルと比較して優れた性能(バリデーション精度74.01%、ログ損失0.76)を得ることができた。 本研究で報告されたすべての結果は,DCASE 2021チャレンジタスク1aにおける"低複雑音響シーン分類(ASC)"の解決を目的とした,GT-USTC-UKE-Tencent という4つのグループの共同作業に基づいている。

We propose a novel neural model compression strategy combining data augmentation, knowledge transfer, pruning, and quantization for device-robust acoustic scene classification (ASC). Specifically, we tackle the ASC task in a low-resource environment leveraging a recently proposed advanced neural network pruning mechanism, namely Lottery Ticket Hypothesis (LTH), to find a sub-network neural model associated with a small amount non-zero model parameters. The effectiveness of LTH for low-complexity acoustic modeling is assessed by investigating various data augmentation and compression schemes, and we report an efficient joint framework for low-complexity multi-device ASC, called Acoustic Lottery. Acoustic Lottery could compress an ASC model over $1/10^{4}$ and attain a superior performance (validation accuracy of 74.01% and Log loss of 0.76) compared to its not compressed seed model. All results reported in this work are based on a joint effort of four groups, namely GT-USTC-UKE-Tencent, aiming to address the "Low-Complexity Acoustic Scene Classification (ASC) with Multiple Devices" in the DCASE 2021 Challenge Task 1a.
公開日: Sat, 3 Jul 2021 16:25:24 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Detection and Classification of Acoustic Scenes and Events 2021 2021年の音響シーンとイベントの検出と分類 0.85
Challenge A LOTTERY TICKET HYPOTHESIS FRAMEWORK FOR LOW-COMPLEXITY 挑戦 低複雑さのための宝くじ仮説の枠組み 0.57
DEVICE-ROBUST NEURAL ACOUSTIC SCENE CLASSIFICATION 装置回転ニューラルアコースティック・セレン分類 0.39
Technical Report Chao-Han Huck Yang†1, Hu Hu†1, Sabato Marco Siniscalchi1,2, Qing Wang3, Yuyang Wang3, 技術報告 チャオ・ハン・ハック・ヤンジ1, フー・ヒュー1, サバート・マルコ・シニスカルチ1,2, Qing Wang3, Yuyang Wang3 0.73
Xianjun Xia4, Yuanjun Zhao4, Yuzhong Wu4, Yannan Wang4, Jun Du3, Chin-Hui Lee1 Xianjun Xia4, Yuanjun Zhao4, Yuzhong Wu4, Yannan Wang4, Jun Du3, Chin-Hui Lee1 0.81
1School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA 米国ジョージア工科大学電気・計算機工学科1校 0.52
2Computer Engineering School, University of Enna Kore, Italy 3University of Science and Technology of China, HeFei, China イタリア・エナ・コレ大学第2コンピュータ工学学校 中国科学技術大学, ヘフェイ 0.53
4Tencent Media Lab, Tencent Corporation, China 4tencent media lab, tencent corporation, china 0.86
ABSTRACT We propose a novel neural model compression strategy combining data augmentation, knowledge transfer, pruning, and quantization for device-robust acoustic scene classification (ASC). ABSTRACT デバイス・ロバスト音響シーン分類(ASC)のための,データ拡張,知識伝達,プルーニング,量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。 0.81
Specifically, we tackle the ASC task in a low-resource environment leveraging a recently proposed advanced neural network pruning mechanism, namely Lottery Ticket Hypothesis (LTH), to find a sub-network neural model associated with a small amount non-zero model parameters. 具体的には、最近提案されたLTH(Lottery Ticket hypothesis)と呼ばれる先進的なニューラルネットワーク解析機構を利用して、低リソース環境におけるASCタスクに取り組み、少量の非ゼロモデルパラメータに関連するサブネットワークニューラルモデルを見つける。 0.76
The effectiveness of LTH for low-complexity acoustic modeling is assessed by investigating various data augmentation and compression schemes, and we report an efficient joint framework for low-complexity multi-device ASC, called Acoustic Lottery. 低複雑さ音響モデリングにおけるLTHの有効性を,様々なデータ拡張および圧縮手法を用いて評価し,低複雑さマルチデバイスASCのための効率的なジョイントフレームワークであるAustratic Lotteryについて報告する。 0.71
Acoustic Lottery could compress an ASC model up to 1/104 and attain a superior performance (validation accuracy of 74.01% and Log loss of 0.76) compared to its not compressed seed model. 音響抽選は、ascモデルを1/104まで圧縮し、圧縮されていないシードモデルに比べて優れた性能(74.01%のバリデーション精度と0.76のログ損失)を達成することができた。 0.60
All results reported in this work are based on a joint effort of four groups, namely GT-USTC-UKE-Tencent, aiming to address the “Low-Complexity Acoustic Scene Classification (ASC) with Multiple Devices” in the DCASE 2021 Challenge Task 1a. 本研究で報告されたすべての結果は,DCASE 2021チャレンジタスク1aにおける"低複雑音響シーン分類(ASC)"の解決を目的とした,GT-USTC-UKE-Tencent という4つのグループの共同作業に基づいている。 0.74
Index Terms— Lottery ticket hypothesis, Teacher-student Index Terms — チケットの投機仮説、教師-学生 0.66
learning, Acoustic scene classification, and Device-robustness 学習・音響シーン分類・デバイス・ロバスト性 0.75
1. INTRODUCTION Acoustic scene classification (ASC) aims to recognize a set of given environment classes (e g , airport and urban park) from real-worlds sound examples. 1. 導入 音響シーン分類(asc)は、実世界の音例から与えられた環境クラス(空港や都市公園など)を認識することを目的としている。 0.68
Analysis and learning to predict acoustic scene sounds are important topics associated with various mobile and ondevice intelligent applications [1, 2, 3, 4, 5, 6]. 音響シーン音の予測のための分析と学習は,さまざまなモバイルおよびオンデバイス知的アプリケーション [1, 2, 3, 4, 5, 6] に関連する重要なトピックである。 0.81
The Detection and Classification of Acoustic Scenes and Events (DCASE) challenges [7, 8, 9, 10] provide a comprehensive evaluation platform and benchmark data to encourage and boost sound scene research communities. 音響シーンとイベントの検出と分類 (dcase) 課題 [7, 8, 9, 10] は、音響シーン研究コミュニティを奨励し促進するための総合的な評価プラットフォームとベンチマークデータを提供する。 0.75
DCASE 2021 Task 1a [11] focuses on developing low-complexity acoustic modeling (AM) solutions for predicting sounds recorded from multiple devices (e g , electret binaural microphones, smartphones, and action cameras). DCASE 2021 Task 1a [11]は、複数のデバイス(例えば、エレクトロレートバイノーラルマイク、スマートフォン、アクションカメラ)から録音された音を予測するための低複雑さ音響モデリング(AM)ソリューションの開発に焦点を当てている。 0.72
The goal is to design a device-robust ASC system preserving generalization power over audios recorded by different devices, and highlighting the importance of low-complexity requirements. 目標は、異なるデバイスによって記録されるオーディオの一般化パワーを保ち、低複雑さ要件の重要性を強調するデバイス悪用型ASCシステムを設計することである。 0.64
†The authors have equal contribution on this work. 著者はこの作品に等しく貢献している。 0.64
From previous DCASE challenges, we observed that several competitive ASC systems [12, 13, 14] benefited from large-scale convolutional neural models combined with several data augmentation schemes, but whether we can attain the generalization power of those complex models with a low-complexity architecture is the research goal to be addressed in DCASE 2021 challenge. これまでのdcase課題から,いくつかの競合型ascシステム(12,13,14]は,大規模畳み込みニューラルネットワークとデータ拡張スキームを組み合わせたメリットを享受しているが,これらの複雑度の低い複雑なモデルの一般化能力を達成できるかどうかは,dcase 2021チャレンジで取り組むべき研究目標である。 0.76
To this end, we focus on addressing two basic questions: (i) Are some wellperformed device-robust ASC models overparameterized? この目的のために、我々は2つの基本的な疑問に対処することに焦点をあてる: (i) 優れたデバイスロバストASCモデルは過パラメータ化されているか?
訳抜け防止モード: この目的のために、私たちは焦点を合わせる 2つの基本的な問題に対処する: (i ) 優れたデバイス - 堅牢なASCモデルオーバーパラメータ化か?
0.56
(ii) Can we take advantage of some overparameterized models to design a low-complexity ASC framework on multi-device data? (ii)マルチデバイスデータ上に低複雑さascフレームワークを設計するために、オーバーパラメータモデルの利点を生かすことができるか?
訳抜け防止モード: (ii)過パラメータモデルの活用 マルチデバイスデータ上に低複雑性のASCフレームワークを設計するには?
0.75
Figure 1: The proposed Acoustic Lottery (AL) framework. 図1:提案する音響抽選(al)フレームワーク。 0.61
In the quest for addressing the above questions, we deployed a novel framework, namely “Acoustic Lottery,” for DCASE 2021 Task 1a, which will be described in the following sections. 上記の問題に対処するために,我々はDCASE 2021 Task 1a に新しいフレームワーク,すなわち "Acoustic Lottery" を配置した。
訳抜け防止モード: 上記の質問に対処するために、私たちは新しいフレームワークをデプロイしました。 つまり、DCASE 2021 Task 1a の “ Acoustic Lottery, ” である。 以下に記述する。
0.71
As shown in Figure 1, our Acoustic Lottery system consists of (a) a data augmentation process to improve model generalization, (b) a teach-student learning mechanism to transfer knowledge, from a large teacher model to a small student model, (c) a Lottery Ticket Hypothesis [15] based pruning method to deliver a low-complexity model, (d) a two-stage fusion technique [16] to improve model prediction, and finally (e) a quantization block to deploy a final model owing less than 128 KB non-zero parameters, which is the requirement of Task 1a. As shown in Figure 1, our Acoustic Lottery system consists of (a) a data augmentation process to improve model generalization, (b) a teach-student learning mechanism to transfer knowledge, from a large teacher model to a small student model, (c) a Lottery Ticket Hypothesis [15] based pruning method to deliver a low-complexity model, (d) a two-stage fusion technique [16] to improve model prediction, and finally (e) a quantization block to deploy a final model owing less than 128 KB non-zero parameters, which is the requirement of Task 1a. 0.94
A detailed presentation of each block in Figure 1 is discussed in the following sections. 図1の各ブロックについて、以下の節で詳述する。 0.55
2. LOW-COMPLEXITY ACOUSTIC MODELING 2. 低多重音響モデル 0.68
FRAMEWORK 2.1. フレームワーク 2.1. 0.57
Data Augmentation Strategy In some previous works [12, 16, 17, 18], data augmentation strategies played a key role to attain competitive log-loss results on the データ拡張戦略 [12, 16, 17, 18] では、データ拡張戦略が、競合的ログロス結果を達成する上で重要な役割を果たした。 0.78
1 2 0 2 l u J 1 2 0 2 l u J 0.85
3 ] D S . 3 ] d s である。 0.75
s c [ 1 v 1 6 4 1 0 sc [ 1 v 1 6 4 1 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
(d) Two-Stage Fusion(c) Lottery Ticket HypothesisTeacher Acoustic Model(b) Student Acoustic ModelOutput Scene ClassKnowledge Transfer(a) Data AugmentationMultiple Device Data(e) Quantization (d)二段階融合(c)抽選券仮説教師音響モデル(b)学生音響モデル出力シーンクラスナレッジ転送(a)データ増倍多重デバイスデータ(e)量子化 0.85
英語(論文から抽出)日本語訳スコア
Detection and Classification of Acoustic Scenes and Events 2021 2021年の音響シーンとイベントの検出と分類 0.85
Challenge Algorithm 1 LTH for Device-Robust Acoustic Modeling 挑戦 アルゴリズム1 デバイスロバスト音響モデリングのためのlth 0.70
1. Input: a model, G0; augmented sound data, D. 2. 1. 入力: a model, g0; augmented sound data, d. 2。 0.88
Randomly Initialize Weights (Θ0). ランダム初期化度 (Randomly Initialize Weights)。 0.67
3. Initialize Model: G0(Θ0) → G1 4. 3. 初期化モデル: G0(\0) → G14。 0.83
For t = 1, ..., T : # Pruning Searching Iterations 5. t = 1, ..., t : # pruning search iterations 5 に対して。 0.78
For e = 1, ..., E: # Gradient Training Epochs 6. e = 1, ..., e: #gradient training epochs 6。 0.66
7. 8. 9. 10. 7. 8. 9. 10. 0.85
11. Output: A well-trained pruned model GT (ΘT ) 11. 出力: 十分に訓練されたプルーニングモデルGT 0.79
Mask(Θt) to get a pruned graph Gp from G0 Load homologous initial weights Θp ∈ Θ0 from Gp Update target model Gp(Θp) → Gt+1 mask(θt) は gp update 対象モデル gp(θp) → gt+1 から g0 load homologous initial weights θp ∈ θ0 の pruned graph gp を得る。 0.70
Θe → Θ: TSL-train Gt with D for its final weights (Θt) θe → θ: tsl-train gt with d for its final weights (θt) 0.72
If t < T: # LTH Pruning Strategy if t < t: # lth pruning strategy 0.70
DCASE 2020 validation set [14]. DCASE 2020 検証セット[14]。 0.60
The first module (Figure. 最初のモジュール(図)。 0.83
1 (a)) of our DCASE 2021 system thereby builds upon eight data augmentation methods investigated in Hu et al ’s work [12] with the goal of deploying a seed model with good generalization capabilities to deal with the multiple device acoustic condition. 今回のdcase 2021システムの1(a)は,huらの研究[12]で検討された8つのデータ拡張手法に基づいて,複数のデバイスの音響条件に対応するための,優れた一般化機能を備えたシードモデルをデプロイすることを目的としています。 0.70
2.2. Teacher-Student Learning (TSL) 2.2. 教師学習(TSL) 0.73
Teacher-Student Learning (TSL), also named as Knowledge Distillation (KD), is a widely investigated approach for model compression [19, 20]. 知識蒸留(KD)とも呼ばれるTSL(Teacher-Student Learning)は,モデル圧縮 [19, 20] において広く研究されている手法である。 0.82
Specifically, it transfers knowledge from a large and complex deep model (teacher model) to a smaller one (student model). 具体的には、知識を大規模で複雑な深層モデル(教師モデル)からより小さなモデル(学生モデル)に転送する。 0.85
The main idea is to establish a framework that makes the student directly mimicking the final prediction of teacher. 主なアイデアは、生徒が教師の最終予測を直接模倣する枠組みを確立することである。 0.75
Formally, the soften outputs of a network can be computed by p = τ ), where α is the vector of logits (pre-softmax activasof tmax( α tions) and τ is a temperature parameter to control the smoothness [19]. 正式には、ネットワークのソフトな出力は p = τ で計算でき、ここで α はロジットのベクトル(pre-softmax activasof tmax(α tions))、 τ は滑らかさを制御する温度パラメータ [19] である。 0.86
Accordingly, the distillation loss for soft logits can be written as the Kullback-Leibler divergence between the teacher and student soften outputs. これにより、ソフトロジットの蒸留損失を、教師と生徒の出力を軟化させるカールバックリーバの発散として書ける。 0.58
In this work, we followed the approaches in [12] to build a large two-stage ASC system, serving as the teacher model. 本研究では, [12] のアプローチに従い, 教師モデルとして機能する大規模二段階ascシステムの構築を行った。 0.84
Then a teacher-student learning method is used to distill knowledge to a low-complexity student model, as shown in Figure 1 (b). 次に、図1(b)に示すように、教師学習法を用いて、低複雑さの学生モデルに知識を抽出する。 0.77
2.3. Lottery Ticket Hypothesis Pruning 2.3. Lottery Ticket仮説プルーニング 0.72
Next we have investigated advanced pruning techniques to further reduce non-zero model parameters of the student. 次に,学生の非ゼロモデルパラメータをさらに削減するために,先進的なプルーニング手法を検討した。
訳抜け防止モード: 次に 高度な刈り取り技術について 生徒の非-ゼロモデルパラメータをさらに低減する。
0.75
Although neural network pruning methods often negatively affect both model prediction performance and generalization power, a recent study, referred to as Lottery Ticket Hypothesis [15] (LTH), showed a quite surprising phenomenon, namely pruned neural networks (sub-networks) could be trained attaining a performance that was equal to or better than the not pruned original model if the not pruned parameters were set to the same initial random weights used for the non-pruned model. ニューラルネットワークのプルーニング法はモデル予測性能と一般化パワーの両方に悪影響を及ぼすことが多いが、Lottery Ticket hypothesis [15] (LTH) と呼ばれる最近の研究では、非プルーニングモデルで使用される初期ランダムウェイトに未プルーニングパラメータが設定された場合、プルーニングニューラルネットワーク(サブネットワーク)が、未プルーニングモデルと同等以上の性能を達成することができるという驚くべき現象が示されている。 0.83
Interestingly, LTH-based low-complexity neural models had proven competitive prediction performance on several image classification tasks [15] and recently have been supported with some theoretical findings [21] related to overparameterization . 興味深いことに、LTHベースの低複雑さニューラルネットワークは、いくつかの画像分類タスク [15] において競合予測性能を証明しており、近年、オーバーパラメータ化に関する理論的知見 [21] が支持されている。
訳抜け防止モード: 興味深いことに、LTHベースの低複雑性ニューラルネットワークは、複数の画像分類タスクにおいて競合予測性能を証明した [15] 最近 オーバーパラメトリゼーションに関連する 理論的な発見[21]が支持されています
0.66
However, there is not any study on employing LTH for acoustic modeling or speech processing To the best of the authors’ knowledge, this is the first work concerned with LTH and neural acoustic modeling. しかし、lthを音響モデリングや音声処理に活用する研究は、著者の知識を最大限に活用するために行われていないため、lthとニューラルアコースティックモデリングに関する最初の研究である。 0.65
Algorithm Design: In Algorithm 1, we detail our approach under the Acoustic Lottery framework: In step (1), we first choose a model with its original neural architecture (e g , Inception in our case) G0 and record its initial weights parameters Θ0 in step (2). アルゴリズム設計:アルゴリズム1では、音響抽選の枠組みの下で、我々のアプローチを詳述している。 ステップ1では、まず、元のニューラルネットワークアーキテクチャ(私たちの場合のインセプション)g0でモデルを選択し、最初の重みパラメータθ0をステップ(2)に記録します。 0.72
In our work, we incorporate teacher-student learning framework discussed in Section 2.2 with the goal of mimic prediction accuracy and generalization adapted of the teacher acoustic model - a complex model trained separately. 院 本研究は,教師音響モデルに適応した予測精度と一般化を模倣する目的で,第2部2節で論じられた教師学生学習の枠組みを取り入れた。 0.60
At the end of each training phase, a pruning iteration is started if the current iteration t is less than T . 各トレーニングフェーズの最後に、現在のイテレーションtがT未満であれば、プルーニングイテレーションを開始する。 0.54
The LTH pruning searches for a low-complexity model in steps (7) through (10). LTHプルーニングはステップ (7) から (10) における低複雑さモデルを求める。 0.81
From our empirical findings in DCASE 2021 Task 1A data, we found that the proposed Acoustic Lottery only needs one or two (T =1 or 2 in Algorithm 1) searching iteration(s) to find a good lowcomplexity acoustic model without a significant drop in the ASC classification accuracy compared to the high-complexity teacher model on the validation set. dcase 2021タスク1aデータにおける実験結果から,提案する音響抽選は,検証セット上の高複雑度教師モデルと比較して,asc分類精度を著しく低下させることなく,良好な低複雑度音響モデルを求めるために,アルゴリズム1において1つか2つ(t=1か2)しか必要としないことがわかった。 0.78
To select the mask function in step (8), we evaluate three major LTH strategies, namely: (i) large-final; (ii) small weights, and (iii) global small weights, which were proposed in [15]. マスク関数をステップ8で選択するために, [15] で提案されている, (i) 大型化, (ii) 小型化, (iii) グローバル小型化という3つの主要なlth戦略を評価した。 0.81
We found the small weights strategy allows us to attain better trade-off between classification accuracy and compression rate compared to the other two mentioned methods as shown in Figure 2. 図2に示すように、小重量化戦略により、他の2つの方法と比較して分類精度と圧縮速度のトレードオフが良くなることがわかった。 0.72
Therefore, we selected “small weights” as pruning strategy to be used in our final submission. そこで我々は,最終提出に使用する刈り取り戦略として「小重量」を選択した。 0.78
Finally, a well-trained pruned student acoustic model is deployed in step (10) of Algorithm 1 最後に、アルゴリズム1のステップ(10)によく訓練された学生音響モデルを配置する。 0.70
(a) Validation Loss (b) Validation Accuracy (a)検証損失 (b)検証の正確さ 0.76
Figure 2: We compared empirical performance of different LTHmasking strategies [22] versus sparsity level (weights remaining). 図2:異なるlthmasking戦略 [22] とsparsityレベル (重量) の実証的なパフォーマンスを比較しました。 0.75
Visualization: To better interpret weights distribution in an LTH-pruned neural acoustic model, we visualize a shallow inception model (excluding convolutional layers due to their dimensional conflicts) on Index 3 in Table 1 and its LTH-pruned results as Index 5 in in Table 1 shown in Figure 3. 可視化: lth-pruned neural acoustic modelにおける重み分布をよりよく解釈するために、表1のインデックス3上の浅いインセプションモデル(その次元の衝突による畳み込み層を除く)とそのlth-pruned結果を図3の表1のインデックス5として可視化する。 0.83
In Figure 3b, we can observe that the proposed Acoustic Lottery framework can discover a well-trained model using only sparse weights with up to a 149× compression rate. 図3bでは、提案する音響抽選フレームワークが、最大149倍の圧縮速度を持つスパースウェイトのみを使用して、十分に訓練されたモデルを見つけることができることを観察できる。 0.56
2.4. Two-Stage Fusion and Multi-Task Learning To boost ASC performance, we follow the investigation in the twostage ASC scheme discussed in [16], where the relationship between the 3-class and 10-class ASC systems were exploited to boost the 10-class ASC system. 2.4. 2段階融合とマルチタスク学習によりasc性能が向上し, [16] で議論された2段階asc方式において, 3段階ascシステムと10段階ascシステムの関係を利用して10段階ascシステムを強化した。 0.73
This step is carried out in the module (d) in Figure 1. このステップは図1のモジュール(d)で実行されます。 0.82
The key idea is that the labels of the two subtasks, 3class and 10-class problems, differ in the degree of abstraction and using the two labels together could be helpful. キーとなるアイデアは、3クラスと10クラスの2つのサブタスクのラベルは抽象化の程度が異なり、2つのラベルを一緒に使うのが役に立つということである。
訳抜け防止モード: 鍵となる考え方は 2つのサブタスク、3クラスと10クラスの問題のラベルは抽象化の程度が異なる 2つのラベルを一緒に使うのは 役に立ちます
0.75
In our setup, the 3class classifier classifies an input scene audio into one of three broad classes: in-door, out-door, and transportation. 私たちのセットアップでは、入力シーンオーディオをインドア、アウトドア、トランスポーテーションの3つのクラスに分類します。 0.60
This 3-class classification way is from our prior knowledge that scene audios can be roughly categorized into such three classes. この3クラス分類法は、シーンオーディオを大まかに3つのクラスに分類できるというこれまでの知識から生まれたものである。
訳抜け防止モード: この3階級の分類方法は シーンオーディオは、この3つのクラスに大まかに分類することができる。
0.82
The 10-class classifier is actually the main classifier. 10クラス分類器は実際には主分類器である。 0.60
Each audio clip should belong to one of the three / ten classes. 各オーディオクリップは、3/10クラスの1つに属しなければならない。 0.68
The final acoustic scene class is chosen by the score fusion of those two classifiers. 最後の音響シーンクラスは、これら2つの分類器のスコア融合によって選択される。 0.66
If we let C1 and C2 denote the set of three broad classes, and ten classes, respectively, and c1 と c2 をそれぞれ 3 つの広いクラスと 10 つのクラスの集合とすると、 0.69
80.00%44.22%10.40%0. 67%Weights Remaning1.011.021.03 1.041.05Mean Val. 80.00%44.22%10.40%0. 67%Weights Remaning1.011.021.03 1.041.05Mean Val 0.46
Log LossLarge FinalSmallest Weights (SW)SW Global80.00%44.22%10 .40%0.67%Weights Remaning66.567.067.5 68.068.5Mean Val. Log LossLarge FinalSmallest Weights (SW)SW Global 80.00%44.22%10.40%0. 67%Weights Remaning66.567.067.5 68.068.5Mean Val 0.59
AccuracyLarge FinalSmallest Weights (SW)SW Global 高精度ファイナルSmallest Weights (SW)SW Global 0.90
英語(論文から抽出)日本語訳スコア
Detection and Classification of Acoustic Scenes and Events 2021 2021年の音響シーンとイベントの検出と分類 0.85
Challenge with a 2048 SFFT points, a window size of 2048 samples, and a frame shift of 1024 samples. 挑戦 2048 sfftポイント、ウィンドウサイズは2048サンプル、フレームシフトは1024サンプルである。
訳抜け防止モード: 挑戦 2048のSFFTポイントで 窓の大きさは2048のサンプルです フレームシフトは1024個のサンプルです
0.74
Thus the final input tensor size is thus 423×128×3 for Task 1a. したがって、最終的な入力テンソルサイズはタスク1aの423×128×3である。 0.56
Before feeding the speech feature tensors into CNN classifier, we scaled each feature value into [0,1]. 音声特徴テンソルをcnn分類器に入力する前に,各特徴値を[0,1]にスケールした。 0.64
3.2. Model Training All ASC systems are evaluated on the DCASE 2020 task1a development data set [10], which consists of ∼14K 10-second singlechannel train audio clips and ∼3K test audio clips recorded by 9 different devices, including real devices A, B, C, and simulated device s1-s6. 3.2. モデルトレーニング すべてのascシステムは、実デバイスa,b,c,シミュレーションデバイスs1-s6を含む9つの異なるデバイスで記録された14kのシングルチャネルトレインオーディオクリップと3kテストオーディオクリップで構成されるdcase 2020 task1a開発データセット[10]で評価される。 0.77
Only device A, B, C, s1-s3 are in the training set; whereas, devices s4-s6 are unseen in the training phase. 訓練セットにはデバイスa,b,c,s1〜s3のみ、訓練段階ではデバイスs4〜s6が認識されない。 0.65
The greatest amount of training audio clips are recorded with device A, namely over 10K audio clips. トレーニング用オーディオクリップの最大量は、デバイスA、すなわち10K以上のオーディオクリップで記録される。 0.76
In the test set, the number of waveforms from each device is the same. テストセットでは、各デバイスからの波形数が同じである。 0.73
We use two different Inception [25] models as our target models, namely Shallow Inception (SIC) and Large Inception (LIC). ターゲットモデルとしてShallow Inception(SIC)とLarge Inception(lic)の2つの異なるInception [25]モデルを使用します。 0.85
SIC has two inception blocks whereas LIC has three inception blocks and more filters. sicは2つのインセプションブロックを持ち、licは3つのインセプションブロックとそれ以上のフィルタを持つ。 0.52
The size computed by the way recommended in [24] of the original SIC and LIC are 503KB and 3528KB, respectively. 元のSICとlicの[24]で推奨されるサイズは、それぞれ503KBと3528KBである。 0.63
All Inception models in this work are built with Keras [26] based on Tensorflow2 [27]. この作業のすべてのインセプションモデルは、Tensorflow2 [27]をベースにしたKeras [26]で構築されます。 0.65
Stochastic gradient descent (SGD) with a cosine-decay-restart learning rate scheduler is used to train all deep models. 全深度モデルのトレーニングには,コサイン・デカイ・リスタート学習率スケジューラを用いた確率勾配降下(SGD)を用いる。 0.67
Maximum and minimum learning rates are 0.1, and 1e-5, respectively. 最大学習率は0.1、最小学習率は1e-5である。 0.61
In our final submission, all development data is used. 最終提出書では、すべての開発データが使用されます。 0.64
And due to there is no validation data, we use the output of model when learning rate hits the minimum number. また、検証データがないため、学習率が最小値に達するとモデルの出力を使用する。 0.64
3.3. Results on Task 1a 3.3. タスク1aの結果 0.76
In Table 1, we report only some of the evaluation results for lowcomplexity models collected on Task 1a due to space constraints. 表1では,空間制約のため,タスク1aで収集した低複雑さモデルの評価結果についてのみ報告する。 0.78
Two inception models: (i) shallow inception model (SIC) and (ii) large inception model (LTC), are investigated under the proposed Acoustic Lottery framework. 提案手法を用いて, (i) 浅層開始モデル (SIC) と (ii) 大型開始モデル (LTC) の2つの開始モデルについて検討した。 0.67
By evaluating several low-complexity strategies shown in 1. 1で示したいくつかの低複雑さ戦略を評価する。 0.54
From the results, Index (0) is the official baseline, which has the size of 90.3KB but very low accuracy and high log loss. 結果から、インデックス(0)は公式のベースラインであり、サイズは90.3KBだが、非常に低い精度とログロスが高い。 0.68
Index (1) and Index (2) are results from [12], where a twostage system is used. index (1) と index (2) は、2段階のシステムを使用する [12] の結果である。 0.85
Although they achieve very good performance (77.6% for two-stage FCNN and 81.9% for two-stage ensemble), their size is very large, which are 132MB and 332MB, respectively. 2段のFCNNでは77.6%、2段のアンサンブルでは81.9%)非常に優れた性能を発揮するが、それぞれ132MBと332MBである。 0.70
The Index (3-11) in Table 1 are results of SIC. 表1のインデックス(3-11)はSICの結果である。 0.83
We here perform the ablation study for each method we propose. 本稿では,提案手法毎にアブレーション研究を行う。 0.71
Index (3) is the SIC baseline, which has the size of 503KB, accuracy of 67.8%, and log loss of 0.954. index (3)はsicベースラインで、サイズは503kb、精度67.8%、ログ損失0.954である。
訳抜け防止モード: Index (3 ) は SIC のベースラインであり、サイズは 503 KB である。 精度67.8%、ログ損失0.954。
0.66
With the use of TSL, shown as Index (4), we can improve the accuracy and log loss while keeping the model size unchanged. 指標 (4) に示す TSL を用いることで,モデルサイズを一定に保ちながら精度とログ損失を改善することができる。 0.80
We use the two-stage FCNN model, shown as Index (1), as the teacher model. 本研究では,教師モデルとして,インデックス(1)に示す2段階のFCNNモデルを用いる。 0.75
Index (5) shows the result of using LTH, where we can significantly reduce the model size (around 149× compression rate. インデックス (5) は LTH を用いて, モデルサイズ(約149× 圧縮率)を大幅に削減できることを示す。 0.80
Although model parameters are reduced in a huge scale, the model performance shows much better than the SIC baseline: Index (3). モデルパラメータは大規模に縮小されるが、モデル性能はsicベースラインよりもはるかに良い: index (3)。 0.72
This verifies our argument that the models are overparameterized a lot. これはモデルが過度にパラメータ化されているという我々の議論を検証する。 0.58
Index (6) and (7) shows the results by only using two-stage fusion or MTL. 指標 (6) と指標 (7) は2段階核融合 (MTL) のみを用いて結果を示す。 0.77
From the results, we can see the two-stage can boost the performance, but the method will double the model size. 結果から、2段階のステージはパフォーマンスを高めることができるが、そのメソッドはモデルサイズを2倍にする。 0.73
By using a compromise method, MTL, can work in the same manner but save parameters. 妥協メソッドであるmtlを使用することで、同じ方法で動作することができるが、パラメータを保存できる。 0.59
However, it’s slightly worse than using twostage. しかし、2つのステージを使うよりは、やや悪い。 0.70
Index (8) shows the result by only using quantization. 指数 (8) は量子化のみを用いて結果を示す。 0.81
The model parameters are quantized from float32 to float8. モデルパラメータはfloat32からfloat8に量子化される。 0.70
Although it obtains a 4× compression rate, the performance worsens when 圧縮速度は4倍だが、性能は低下する。 0.62
(a) Shallow Inception (SIC) (a)浅発祥(SIC) 0.55
(b) LTH-Pruned SIC b) LTH-Pruned SIC 0.95
Figure 3: Visualized of layer-wise weights distribution by the LTH approach applied to the student neural acoustic model: (a) Shallow Inception (SIC) student and (b) LTH-Pruned (99.33%) SIC student. 図3:lthアプローチによる層方向重み分布の可視化 : (a)shash inception (sic) studentと (b)lth-pruned (99.33%) sic student
訳抜け防止モード: 図3 : 学生神経音響モデルへのLTH法の適用による層厚分布の可視化 : (a) 浅部入力(SIC)学生 b) LTH - Pruned (99.33 %) SIC の学生。
0.83
let F 1 and F 2 indicate the output of the first and second classifier, respectively. F1とF2は、それぞれ第1と第2の分類器の出力を示す。 0.78
The final predicted class Class(x) for the input x is: 入力 x に対する最終的な予測クラス Class(x) は、 0.77
Class(x) = class(x) = 0.79
argmax q,(p∈C1,q∈C2,p⊃q) argmax q,(p・C1・q・C2・p・q) 0.69
p (x) ∗ F 2 F 1 p (x) ∗ F 2 F 1 0.85
q (x), where p ⊃ q means that p can be thought of a super set of q. q (x) p が q である場合、p は q の超集合と考えることができる。 0.72
For example, transportation class is the super set for bus, tram, and metro classes. 例えば、輸送クラスはバス、路面電車、地下鉄のスーパーセットである。 0.66
Therefore, the probability of an input audio clip to be from the public square scene is equal to the product of the probability of out-door place, F 1 したがって、公共の広場シーンから入力されたオーディオクリップの確率は、屋外の場所の確率F1の積と等しい。 0.65
p (x), and that of public square, F 2 p (x) と公的な正方形 f 2 0.62
q (x). q (x) である。 0.80
However, the two ASC classifiers are trained separately, which means the total parameters will be doubled. しかし、2つのasc分類器は別々に訓練されるため、合計パラメータは2倍になる。 0.75
In [13], the authors argued that joint training of two subtasks could be even more efficient. 13]では、2つのサブタスクの合同トレーニングはさらに効率的であると主張した。 0.65
Specifically, the 3-class classifier and the 10-class classifier can be learned in a multi-task learning (MTL) [23] manner. 具体的には、3クラス分類器と10クラス分類器をマルチタスク学習(MTL)[23]方式で学習することができる。 0.82
The two classifiers can share some parameters, where only output layers are different. 2つの分類器は、出力層だけが異なるパラメータを共有することができる。 0.76
MTL is expected to perform as well as two-stage method but save parameters. mtlは2段階のメソッドだけでなくパラメータの保存も期待されている。 0.63
We thus study that setting as an ablation module in our experimental section. そこで,本実験ではアブレーションモジュールとしての設定について検討する。 0.69
2.5. Quantization for Model Compression As the main goal is to deploy a system with a size within 128 Kilobytes (KB), we further use a post-training quantization method with dynamic range quantization (DRQ), as shown in Figure 1 (e). 2.5. モデル圧縮のための量子化 主なゴールは、128キロバイト (KB) 以内のシステムをデプロイすることであり、図1(e)に示すように、動的レンジ量子化(DRQ)を用いた後トレーニング量子化手法をさらに活用する。 0.76
DRQ is the simplest form of post-training quantization, which statically quantizes only weights from floating point to integer, which has 8bits of precision. DRQは、浮動小数点から整数への重みのみを静的に定量化する、訓練後の量子化の最も単純な形式であり、精度は8ビットである。 0.67
Moreover, activations are dynamically quantize based on their range to 8-bits. さらに、アクティベーションはその範囲から8ビットまで動的に量子化される。 0.69
Leveraging upon DRQ, we thus convert our neural acoustic model from a 32-bit format to a 8-bit format, which compresses the model size to about 1/4 of its original size as our final model. DRQを応用して、我々のニューラル音響モデルを32ビットフォーマットから8ビットフォーマットに変換し、モデルのサイズを最終モデルとして元のサイズの約1/4に圧縮する。 0.85
3. EXPERIMENTAL SETUP & RESULTS 3. 実験セットアップと結果 0.70
3.1. Feature Extraction We follow the same settings from DCASE 2020 Task-1a extracting acoustic features for DCASE 2021 Task-1a [11] before using the features to train low-complexity described in Section 2 and Figure 1. 3.1. 特徴抽出は,DCASE 2020 Task-1aの音響特性を抽出するDCASE 2021 Task-1a [11]と同じ設定に従って,第2節と第1節の低複雑さの訓練に使用する。 0.73
Log-mel filter bank (LMFB) features were used in our experiments as audio features. 実験では,ログメルフィルタバンク (LMFB) を音響特性として用いた。 0.74
The input audio waveform is analyzed 入力音声波形を解析します 0.87
英語(論文から抽出)日本語訳スコア
Detection and Classification of Acoustic Scenes and Events 2021 2021年の音響シーンとイベントの検出と分類 0.85
Challenge Table 1: Experimental results on 2021 Task 1a. 挑戦 表1: 2021 タスク 1a の実験結果。 0.78
’TSL’ means performing teacher-student learning. TSL”とは,教師の学習を行う,という意味だ。 0.52
’LTH’ means pruning with the Lottery Ticket Hypothesis algorithm. ’LTH’は、Lottery Ticket仮説アルゴリズムでプルーニングすることを意味する。 0.73
’Two-stage’ means using a two-stage fusion system. は、2段階の核融合システムを使うことを意味する。 0.54
’MTL’ means using multi-task learning system. MTLはマルチタスク学習システムである。 0.62
’Quant’ means using quantization on model parameters (float32 to float8). はモデルパラメータ(float32からfloat8)の量子化を使用することを意味する。 0.74
’Aug’ means using extra augmented data (Method 3-8 in Section 2.1). Aug’は追加の拡張データを使用することを意味する(セクション2.1のメソッド3-8)。 0.56
’System size’ is according to non-zero parameters [11]. システムサイズは非ゼロパラメータ [11] に従っています。 0.84
All ’Y’ in the table means we used that method. テーブルのすべての’Y’は、そのメソッドを使用することを意味します。 0.63
Acc. indicates validation accuracy. acc。 検証精度を示す。 0.70
Idx. (0) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) (21) (22) Idx (0) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) (21) (22) 0.68
System TSL LTH Two-stage MTL Quant Aug システム TSL LTH二段MTL量子オーグ 0.78
System size Acc. システムサイズacc。 0.70
% Log Loss Official Baseline [24] Two-stage FCNN [16] %ログ損失 公式ベースライン[24]2ステージFCNN[16] 0.75
Two-stage Ensemble [16] 2段アンサンブル[16] 0.69
SIC SIC SIC SIC SIC SIC SIC SIC SIC LIC LIC LIC LIC LIC LIC LIC LIC SIC SIC SIC SIC SIC SIC SIC SIC SIC SIC SIC lic lic lic lic lic lic lic 0.49
Ensemble of LICs Ensemble of LICs コンプレックスの集合体 0.27
Ensemble of LICs and SICs コンプレックスとSICの集合 0.56
YY YYY Y Y Y Y Y Y yyyyyyyyyyyyyyyyyyyy yyyyyyyyyyyyyyyyyyy 0.29
YYYY Y Y Y Y Y Y yyyyyyyyyyyyyyyyyyyy yyyyyyyyyyyyyyyyyyy 0.26
Y YYY YY Y YY Y Y Y yyyyyyyyyyyyyyyyyyyy yyyyyyyyyyyyyyyyyyy 0.26
Y- YY YY Y Y- Y YY YY YY- 0.76
Y YY Y Y Y Y Y yyyyyyyyyyyyyyyyyyyy yyyyyyy 0.17
90.3KB 132MB 332MB 503KB 503KB 3.4KB 1006 KB 504KB 126KB 1006KB 252KB 0.9KB 3528KB 3528KB 23.6KB 7056 KB 47.2KB 47.2KB 5.9KB 11.8KB 47.2KB 118KB 122KB 90.3KB 132MB 332MB 503KB 503KB 1006KB 504KB 126KB 1006KB 252KB 252KB 3528KB 3528KB 23.6KB 7056KB 47.2KB 47.2KB 5.9KB 11.8KB 47.2KB 118KB 122KB 0.51
47.7 77.6 81.9 67.8 68.9 68.2 68.9 68.0 66.9 69.2 68.4 67.7 69.0 69.9 69.2 70.0 70.8 71.8 71.1 71.8 72.9 73.2 74.0 47.7 77.6 81.9 67.8 68.9 68.2 68.9 68.0 66.9 69.2 68.4 67.7 69.0 69.9 69.2 70.0 70.8 71.8 71.1 71.8 72.9 73.2 74.0 0.40
1.473 0.795 0.829 0.954 0.919 0.914 0.914 0.915 0.972 0.874 0.906 0.931 0.891 0.880 0.878 0.848 0.833 0.796 0.852 0.794 0.780 0.771 0.760 1.473 0.795 0.829 0.954 0.919 0.914 0.914 0.915 0.972 0.874 0.906 0.931 0.891 0.880 0.878 0.848 0.833 0.796 0.852 0.794 0.780 0.771 0.760 0.40
compared with the SIC baseline. SICベースラインに比べます。 0.58
However, according to our experiments, we find that the ensemble of 4 quantized models shows better results than an unquantized model, which shows the potential of quantization. しかし, 実験の結果, 4つの量子化モデルのアンサンブルは, 量子化の可能性を示す非定量化モデルよりもよい結果を示すことがわかった。 0.86
With the combination of proposed approaches, we can further boost the performance of SIC model, as shown in Index (9) to (11) of Table 1. 提案手法を組み合わせることで,表1のインデックス(9)から11)に示すように,SICモデルの性能をさらに向上させることができる。 0.81
We can at most compress the SIC model to 0.9KB, shown as Index (11), with even better performance than SIC baseline. 最低でもSICモデルを0.9KBに圧縮することができ、インデックス(11)として示され、SICベースラインよりもパフォーマンスが向上する。 0.67
As for LIC models, shown in Index (12) to (19), the same conclusions as SIC can be observed. 指標 (12) から (19) に示す lic モデルでは、SIC と同じ結論が観察できる。 0.61
Furthermore, when training by augmented data, system robustness can be further boosted. さらに、拡張データによるトレーニングでは、システムの堅牢性をさらに向上させることができる。 0.64
As for LIC, we can at most compress it to 5.9KB, which a log loss of 0.852. licに関しては、最大で5.9kbまで圧縮でき、ログ損失は0.852である。 0.71
And the best log loss can be obtained by an 11.8KB system, shown as Index (19), with an accuracy of 71.8% and log loss of 0.794. 最良のログ損失はインデックス(19)で示される11.8KBシステムで取得でき、精度は71.8%、ログ損失は0.794である。 0.78
The model size limitation of DCASE 2021 task 1a is 128KB. DCASE 2021タスク1aのモデルサイズ制限は128KBである。 0.79
Thus we investigate ensemble systems. そこで我々はアンサンブルシステムについて検討する。 0.33
As shown in Index (20) to (21), the model ensemble can further increase the performance. インデックス(20)〜(21)に示すように、モデルアンサンブルはさらにパフォーマンスを向上させることができる。
訳抜け防止モード: 指標 (20 ) から (21 ) に示すように モデルアンサンブルはさらにパフォーマンスを向上させることができる。
0.85
Index (20) is the ensemble of four quantized 10-class LICs and one unquantized 3-class LIC. インデックス (20) は、4つの量子化10級licと1つの非量子化3級licのアンサンブルである。 0.46
Index (21) is the ensemble of three 10-class LICs and two 3-class LICs. Index (21) は、3つの10クラスのlicと2つの3クラスのlicのアンサンブルである。 0.49
Index (22) is further ensembled with a SIC on system of Index (21). インデックス(22)は、インデックス(21)のシステム上のSICでさらにアンサンブルされる。 0.80
The best ensemble system, shown as Index (22), can obtain 74.0% accuracy and 0.760 log loss, with a model size of 122KB. ベストアンサンブルシステムは、インデックス(22)として示され、モデルサイズが122kbの74.0%の精度と0.760ログロスを得ることができる。 0.68
For our final submitted four systems: four “two-stage ensembles” of different LIC and SIC models with LTH pruning are selected. 最終提出した4つのシステムについて、LTHプルーニングによる異なるlicおよびSICモデルの4つの「2段階アンサンブル」を選択した。 0.59
We obtain SICs and LICs from different training epochs by training with different combinations of data augmentation strategies and training criterion (one-hot labels or TS learning). データ拡張戦略とトレーニング基準(ワンホットラベルまたはts学習)の異なる組み合わせでトレーニングすることにより、異なるトレーニング時代のsicおよびlicを得る。 0.70
Specifi- cally, for system (a), we use two 3-class LICs, three 10-class LICs and one 10-class SIC. Specifi- システム(a)では、2つの3クラスのlic、3つの10クラスのlic、1つの10クラスのSICを使用します。
訳抜け防止モード: Specifi- cally, for system ( a ), we use two 3-class lics, 3つの10クラスのlicと1つの10クラスのSIC。
0.73
So the total non-zero parameter size of System (a) is 122KB (23.6KB × 5 + 3.4KB × 1). したがって、システム (a) の総パラメータサイズは 122kb (23.6kb × 5 + 3.4kb × 1) である。 0.74
System (b) uses eight 3-class quantized-LICs, two 3-class quantized-SICs, ten 10class quantized-LICs, and three 10-class quantized-SICs. システム(b)は8つの3級量子化SIC、2つの3級量子化SIC、10つの10級量子化SIC、3つの10級量子化SICを使用する。
訳抜け防止モード: システム(b)は8つの3クラス量子化licと2つの3クラス量子化sicを使用する。 10 級量子化 - lics、10 級量子化 - sics。
0.45
So the total size of System (b) is 110KB (5.9KB × 18 + 0.9KB × 5). したがって、システム(b)の総サイズは110KB(5.9KB × 18 + 0.9KB × 5)である。 0.73
System (b) uses two 3-class LICs, two 3-class SIC, two 10-class LICs, four 10-class quantized-LICs, and one 10-class quantized-SIC. システム(b)は、2つの3クラスSIC、2つの3クラスSIC、2つの10クラスSIC、4つの10クラス量子化SIC、1つの10クラス量子化SICを使用する。 0.47
So the total size of System (c) is 125KB (23.6KB × 4 + 5.9KB × 4 + 3.4KB × 2 + 0.9KB × 1). したがって、システム(c)の総サイズは125KB(23.6KB × 4 + 5.9KB × 4 + 3.4KB × 2 + 0.9KB × 1)である。 0.70
System (d) uses two 3-class LICs, four 3-class quantized-LICs, one 10-class LIC, four 10-class quantizedLICs, and one 10-class SIC. システム (d) は、2つの3クラス lic 、4つの3クラス量子化lic 、1つの10クラス lic 、4つの10クラス量子化lic 、1つの10クラス SIC を使用する。
訳抜け防止モード: System ( d ) では、2つの3クラス lic と 4つの3クラス 量子化 - lic を使用する。 10-class LICが1つ、10-class QuantizedLICが4つ、10-class SICが1つある。
0.51
In System (d) we give non-quantized models 4 times larger score weights than quantized models when doing ensemble. システム(d)では、アンサンブルを行うときのスコア重量は量子化モデルより4倍大きい。 0.64
And the total size of System (d) is 122KB (23.6KB × 3 + 5.9KB × 8 + 3.4KB × 1). System (d) の総サイズは 122KB (23.6KB × 3 + 5.9KB × 8 + 3.4KB × 1) である。 0.80
The results of system (1) on development set is specified in Index (22) of Table 1. 開発セットに関するシステム(1)の結果は、表1のインデックス(22)に記載されている。 0.80
4. DISCUSSION & CONCLUSION As low-complexity acoustic modeling, a lottery ticket hypothesis framework, Acoustic Lottery, is proposed and provides competitive results. 4. 討論と結論 低複雑さ音響モデルとして,宝くじ仮説フレームワークであるアコースティック・ロッテリーが提案され,競合する結果が得られた。
訳抜け防止モード: 4. 討論と結論 低複雑性音響モデルとして、宝くじ仮説フレームワークであるAconomic Lotteryを提案する。 競争力のある結果をもたらします
0.65
As the very first attempt on applying LTH for acoustic learning and modeling, our future works included theoretical analysis on the success of LTH and its relationship between knowledge distillation for different acoustic and robust speech processing tasks [28]. lthを音響学習とモデリングに適用する最初の試みとして,lthの成功に関する理論的分析と,異なる音響処理タスクと頑健な音声処理タスクに対する知識蒸留の関係 [28] について行った。 0.83
We will open source our proposed framework and findings to the community at https://github.com/M ihawkHu/ Acoustic-Lottery. 提案するフレームワークと調査結果は、https://github.com/m ihawkhu/ acoustic-lottery.com でコミュニティに公開します。 0.53
英語(論文から抽出)日本語訳スコア
Detection and Classification of Acoustic Scenes and Events 2021 2021年の音響シーンとイベントの検出と分類 0.85
Challenge 5. REFERENCES [1] D. Yang, H. Wang, and Y. Zou, “Unsupervised multi-target domain adaptation for acoustic scene classification,” arXiv preprint arXiv:2105.10340, 2021. 挑戦 5. 参考 [1]D. Yang, H. Wang, Y. Zou, “Unsupervised multi-target domain adaptation for acoustic scene classification” arXiv preprint arXiv:2105.10340, 2021。 0.75
[2] L. Ma, X. Wang, S. Yang, Y. Gong, and Z. Wu, “Multi-scale temporal convolution network for classroom voice detection,” arXiv preprint arXiv:2105.14717, 2021. [2] L. Ma, X. Wang, S. Yang, Y. Gong, Z. Wu, “Multi-scale temporal convolution network for classroom voice detection” arXiv preprint arXiv:2105.14717, 2021 0.95
[3] Y. Lee, S. Lim, and I.-Y. Y. Lee, S. Lim, I.-Y. 0.75
Kwak, “Cnn-based acoustic scene classification system,” Electronics, vol. Kwak, “Cnnベースの音響シーン分類システム”, Electronics, vol. 0.86
10, no. 4, p. 371, 2021. 10だ 4, p. 371, 2021。 0.65
[4] E. Kazakos, A. Nagrani, A. Zisserman, and D. Damen, “Slowfast auditory streams for audio recognition,” in ICASSP 20212021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). E. Kazakos, A. Nagrani, A. Zisserman, D. Damen, “Slowfast auditory stream for audio recognition” in ICASSP 202121 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。 0.78
IEEE, 2021, pp. IEEE, 2021, pp。 0.81
855–859. [5] H. Hu, S. M. Siniscalchi, Y. Wang, and C.-H. Lee, “Relational teacher student learning with neural label embedding for device adaptation in acoustic scene classification,” Proc. 855–859. 5] h. hu, s. m. siniscalchi, y. wang, c.-h. lee, “音響シーン分類におけるデバイス適応のための神経ラベル埋め込みによるリレーショナルな教師学生学習”。 0.73
Interspeech 2020, pp. 文部省、2020年。 0.58
1196–1200, 2020. 1196–1200, 2020. 0.84
[6] H. Hu, S. M. Siniscalchi, Y. Wang, X. Bai, J. [6]H. Hu, S. M. Siniscalchi, Y. Wang, X. Bai, J. 0.93
Du, and C.-H. Lee, “An acoustic segment model based segment unit selection approach to acoustic scene classification with partial utterances,” Proc. Du, and C.-H. Lee, “A Acoustic segment model based segment unit selection approach to acoustic scene classification with partial utterances”, Proc。 0.88
Interspeech 2020, pp. 文部省、2020年。 0.58
1201–1205, 2020. 1201–1205, 2020. 0.84
[7] A. Mesaros, T. Heittola, E. Benetos, P. Foster, M. Lagrange, T. Virtanen, and M. D. Plumbley, “Detection and classification of acoustic scenes and events: Outcome of the DCASE 2016 challenge,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. A. Mesaros, T. Heittola, E. Benetos, P. Foster, M. Lagrange, T. Virtanen, M. D. Plumbley, “Detection and classification of acoustic scene and events: Outcome of the DCASE 2016 Challenge”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 0.90
26, no. 2, pp. 379–393, 2018. 26だ 2、p。 379–393, 2018. 0.61
[8] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic scene classification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018), November 2018, pp. 8] a. mesaros, t. heittola, t. virtanen, “a multi-device dataset for urban acoustic scene classification” in the proceedings of the detection and classification of acoustic scene and events 2018 workshop (dcase2018), november 2018, pp. virtanen。 0.83
9–13. [9] A. Mesaros, T. Heittola, A. Diment, B. Elizalde, A. Shah, E. Vincent, B. Raj, and T. Virtanen, “DCASE 2017 challenge setup: Tasks, datasets and baseline system,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017), November 2017, pp. 9–13. A. Mesaros, T. Heittola, A. Diment, B. Elizalde, A. Shah, E. Vincent, B. Raj, T. Virtanen, “DCASE 2017 Challenge setup: Tasks, datasets and baseline system” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017), November 2017, pp. 0.79
85–92. [10] T. Heittola, A. Mesaros, and T. Virtanen, “Acoustic scene classification in dcase 2020 challenge: generalization across devices and low complexity solutions,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2020 Workshop (DCASE2020), 2020, submitted. 85–92. 10] T. Heittola, A. Mesaros, T. Virtanen, “Acoustic scene classification in dcase 2020 Challenge: generalization across devices and low complexity solutions” Proceedings of the Detection and Classification of Acoustic Scenes and Events 2020 Workshop (DCASE 2020, 2020)に記載されている。 0.79
[Online]. Available: https://arxiv.org/ab s/2005.14623 [オンライン] https://arxiv.org/ab s/2005.14623 0.54
[11] I. Mart´ın-Morat´o, T. Heittola, A. Mesaros, and T. Virtanen, “Low-complexity acoustic scene classification for multidevice audio: analysis of dcase 2021 challenge systems,” arXiv preprint arXiv:2105.13734, 2021. [11]I. Mart ́ın-Morat ́o, T. Heittola, A. Mesaros, T. Virtanen, “Low-complexity acoustic scene classification for multidevice audio: Analysis of dcase 2021 Challenge system”, arXiv preprint arXiv:2105.13734, 2021”。 0.83
[12] H. Hu, C.-H. H. Yang, X. Xia, X. Bai, X. Tang, Y. Wang, S. Niu, L. Chai, J. Li, H. Zhu, F. Bao, Y. Zhao, S. M. Siniscalchi, Y. Wang, J. H. Hu, C.-H. H. Yang, X. Xia, X. Bai, X. Tang, Y. Wang, S. Niu, L. Chai, J. Li, H. Zhu, F. Bao, Y. Zhao, S. M. Siniscalchi, Y. Wang, J. 0.89
Du, and C.-H. Lee, “Device-robust acoustic scene classification based on two-stage categorization and data augmentation,” 2020. Du, and C.-H. Lee, “Device-robust acoustic scene classification based on two-stage categorization and data augmentation”. 2020年。 0.82
[13] H.-j. Shim, J.-h. Kim, J.-w. Jung, and H.-J. [13]H.-j。 Shim, J.-h. Kim, J.-w. Jung, H.-J 0.75
Yu, “Attentive max feature map for acoustic scene classification with joint learning considering the abstraction of classes,” arXiv preprint arXiv:2104.07213, 2021. arXiv preprint arXiv:2104.07213, 2021。
訳抜け防止モード: 授業の抽象性を考慮した共同学習による音響シーン分類のための注意最大機能マップ」 arXiv preprint arXiv:2104.07213 , 2021
0.87
[14] T. Heittola, A. Mesaros, and T. Virtanen, “Acoustic scene classification in dcase 2020 challenge: generalization across devices and low complexity solutions,” arXiv preprint arXiv:2005.14623, 2020. T. Heittola, A. Mesaros, T. Virtanen, “Acoustic scene classification in dcase 2020 Challenge: generalization across devices and low complexity solutions” arXiv preprint arXiv:2005.14623, 2020.”。 0.89
[15] J. Frankle and M. Carbin, “The lottery ticket hypothesis: Finding sparse, trainable neural networks,” in International Conference on Learning Representations, 2018. J. Frankle and M. Carbin, “The lottery ticket hypothesis: Finding sparse, Trainingable Neural Network”. International Conference on Learning Representations, 2018.[15] J. Frankle and M. Carbin。 0.87
[16] H. Hu, C.-H. H. Yang, X. Xia, X. Bai, X. Tang, Y. Wang, S. Niu, L. Chai, J. Li, H. Zhu, et al , “A two-stage approach to device-robust acoustic scene classification,” arXiv preprint arXiv:2011.01447, 2020. H. Hu, C.-H. H. Yang, X. Xia, X. Bai, X. Tang, Y. Wang, S. Niu, L. Chai, J. Li, H. Zhu, et al , “A two-stage approach to device-robust acoustic scene classification” arXiv preprint arXiv:2011.01447, 2020. 0.88
[17] H. Chen, Z. Liu, Z. Liu, P. Zhang, and Y. Yan, “Integrating the data augmentation scheme with various classifiers for acoustic scene modeling,” DCASE2019 Challenge, Tech. H. Chen, Z. Liu, Z. Liu, P. Zhang, Y. Yan, “Integrating the data augmentation scheme with various classifiers for acoustic scene modeling”, DCASE2019 Challenge, Tech。 0.80
Rep., June 2019. 2019年6月現在。 0.69
[18] K. Koutini, H. Eghbal-zadeh, and G. Widmer, “Acoustic scene classification and audio tagging with receptive-fieldregularized CNNs,” DCASE2019 Challenge, Tech. K. Koutini, H. Eghbal-zadeh, G. Widmer, “Acoustic scene classification and audio tagging withceptive-fieldreg ularized CNNs”, DCASE2019 Challenge, Tech. 0.86
Rep., June 2019. 2019年6月現在。 0.69
[19] G. Hinton, O. Vinyals, and J. 19] g. hinton, o. vinyals, j. 0.60
Dean, “Distilling the knowledge in a neural network,” arXiv preprint arXiv:1503.02531, 2015. Dean, “Distilling the knowledge in a neural network” arXiv preprint arXiv:1503.02531, 2015 0.92
[20] J. Li, R. Zhao, J.-T. Huang, and Y. Gong, “Learning smallsize dnn with output-distribution- based criteria,” in Fifteenth annual conference of the international speech communication association, 2014. J. Li, R. Zhao, J.-T. Huang, Y. Gong, “Learning Smallsize dnn with output-distriion-bas ed criteria” in the Fifteenth year conference of the international speech communication Association, 2014 0.88
[21] E. Malach, G. Yehudai, S. Shalev-Schwartz, and O. Shamir, “Proving the lottery ticket hypothesis: Pruning is all you need,” in International Conference on Machine Learning. E. Malach, G. Yehudai, S. Shalev-Schwartz, O. Shamir, “Proving the lottery ticket hypothesis: Pruning is all you need”. International Conference on Machine Learning.[21] E. Malach, G. Yehudai, S. Shalev-Schwartz, O. Shamir。
訳抜け防止モード: [21 ] E. Malach, G. Yehudai, S. Shalev - Schwartz, O. Shamir, 宝くじの仮説を証明せよ : プルーニングは必要なだけであり、機械学習に関する国際会議において。
0.82
PMLR, 2020, pp. PMLR, 2020, pp。 0.81
6682–6691. 6682–6691. 0.71
[22] H. Zhou, J. Lan, R. Liu, and J. Yosinski, “Deconstructing lottery tickets: Zeros, signs, and the supermask,” arXiv preprint arXiv:1905.01067, 2019. H. Zhou, J. Lan, R. Liu, J. Yosinski, “Deconstructing lottery ticket: Zeros, sign, and the Supermask”, arXiv preprint arXiv: 1905.01067, 2019”. 2019年3月3日閲覧。 0.80
[23] C.-H. H. Yang, L. Liu, A. Gandhe, Y. Gu, A. Raju, D. Filimonov, and I. Bulyko, “Multi-task language modeling for improving speech recognition of rare words,” arXiv preprint arXiv:2011.11715, 2020. C.H.H. Yang, L. Liu, A. Gandhe, Y. Gu, A. Raju, D. Filimonov, I. Bulyko, “Multi-task language modeling for improve speech recognition of rare words” arXiv preprint arXiv:2011.11715, 2020。 0.90
[24] I. Mart´ın-Morat´o, T. Heittola, A. Mesaros, and T. Virtanen, “Low-complexity acoustic scene classification for multidevice audio: analysis of dcase 2021 challenge systems,” 2021. [24]I. Mart ́ın-Morat ́o, T. Heittola, A. Mesaros, T. Virtanen, “Low-complexity acoustic scene classification for multidevice audio: analysis of dcase 2021 challenge systems”, 2021。 0.89
[25] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. [25] c. szegedy, w. liu, y. jia, p. sermanet, s. reed, d. anguelov, d. erhan, v. vanhoucke, a. rabinovich, “going deeper with convolutions” in the ieee conference on computer vision and pattern recognition, 2015 pp. (英語) 0.76
1–9. [26] F. Chollet et al , “Keras,” https://keras.io, 2015. 1–9. [26] f. chollet et al , “keras” https://keras.io, 2015年。 0.74
[27] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. 0.87
Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, et al , “Tensorflow: A system for large-scale machine learning,” in 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), 2016, pp. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, et al , “Tensorflow: A system for large-scale machine learning” in 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), 2016 pp。 0.89
265–283. [28] C.-H. Yang, J. Qi, P.-Y. 265–283. [28]C.-H. Yang, J. Qi, P.-Y. 0.74
Chen, X. Ma, and C.-H. Lee, “Characterizing speech adversarial examples using self-attention u-net enhancement,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Chen, X. Ma, and C.-H. Lee, “Characterizing speech adversarial examples using self-attention u-net enhancement” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。 0.89
IEEE, 2020, pp. IEEE, 2020, pp。 0.82
3107–3111. 3107–3111. 0.71
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。