論文の概要: Over-Parameterization and Generalization in Audio Classification
- arxiv url: http://arxiv.org/abs/2107.08933v1
- Date: Mon, 19 Jul 2021 14:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:06:01.268639
- Title: Over-Parameterization and Generalization in Audio Classification
- Title(参考訳): 音響分類における過パラメータ化と一般化
- Authors: Khaled Koutini, Hamid Eghbal-zadeh, Florian Henkel, Jan Schl\"uter,
Gerhard Widmer
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、様々な領域における分類タスクを支配している。
機械聴取では、一般的に非常に優れた一般化能力を示すが、CNNは使用する特定のオーディオ記録装置に敏感である。
- 参考スコア(独自算出の注目度): 6.474760227870045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have been dominating classification
tasks in various domains, such as machine vision, machine listening, and
natural language processing. In machine listening, while generally exhibiting
very good generalization capabilities, CNNs are sensitive to the specific audio
recording device used, which has been recognized as a substantial problem in
the acoustic scene classification (DCASE) community. In this study, we
investigate the relationship between over-parameterization of acoustic scene
classification models, and their resulting generalization abilities.
Specifically, we test scaling CNNs in width and depth, under different
conditions. Our results indicate that increasing width improves generalization
to unseen devices, even without an increase in the number of parameters.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、マシンビジョン、マシンリスニング、自然言語処理など、さまざまな領域の分類タスクを支配している。
マシンリスニングでは、一般的に非常に優れた一般化能力を示すが、cnnは使用する特定のオーディオ録音装置に敏感であり、音響シーン分類(dcase)コミュニティにおいて重大な問題と認識されている。
本研究では,音響シーン分類モデルの過度パラメータ化と結果の一般化能力との関係について検討する。
具体的には,cnnの幅と深さを異なる条件下でテストする。
その結果,パラメータ数の増加を伴わずとも,視認できないデバイスへの一般化が向上することが示唆された。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Self-Attention-Based Contextual Modulation Improves Neural System Identification [2.784365807133169]
一次視覚野の皮質ニューロンは、水平およびフィードバック接続によって媒介される文脈情報に敏感である。
CNNはグローバルなコンテキスト情報を統合し、連続的な畳み込みと完全に接続された読み出し層という2つのメカニズムを通じてコンテキスト変調をモデル化する。
自己アテンションは、パラメータマッチングされたCNNよりも2つの重要な指標であるチューニング曲線相関とピークチューニングにおいて、ニューラルネットワークの応答予測を改善することができる。
論文 参考訳(メタデータ) (2024-06-12T03:21:06Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Domain Generalization with Relaxed Instance Frequency-wise Normalization
for Multi-device Acoustic Scene Classification [18.186932959605247]
音声機能におけるドメイン関連情報は、チャネル統計よりも周波数統計において支配的である。
周波数軸に沿ったプラグアンドプレイで明示的な正規化モジュールであるRelaxed Instance Frequency-wise Normalization (RFN)を紹介する。
RFNは、有用な識別情報の望ましくない損失を緩和しつつ、オーディオ機能におけるインスタンス固有のドメインの不一致を解消することができる。
論文 参考訳(メタデータ) (2022-06-24T23:45:50Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Receptive Field Regularization Techniques for Audio Classification and
Tagging with Deep Convolutional Neural Networks [7.9495796547433395]
CNNの受容場(RF)のチューニングは,その一般化に不可欠であることを示す。
我々は,CNNのRFを制御し,結果のアーキテクチャを体系的にテストする,いくつかの系統的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-26T08:36:29Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。