論文の概要: Bringing the Discussion of Minima Sharpness to the Audio Domain: a
Filter-Normalised Evaluation for Acoustic Scene Classification
- arxiv url: http://arxiv.org/abs/2309.16369v1
- Date: Thu, 28 Sep 2023 12:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 14:47:57.653573
- Title: Bringing the Discussion of Minima Sharpness to the Audio Domain: a
Filter-Normalised Evaluation for Acoustic Scene Classification
- Title(参考訳): 音響領域におけるミニマシャープ性に関する考察:音響シーン分類のためのフィルタ非正規化評価
- Authors: Manuel Milling, Andreas Triantafyllopoulos, Iosif Tsangko, Simon David
Noel Rampp, Bj\"orn Wolfgang Schuller
- Abstract要約: 深層ニューラルネットワークにおける損失最小値のシャープネスと一般化の相関について検討する。
解析は,2次元のフィルタ正規化可視化と抽出されたシャープネス尺度に基づく。
私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。
- 参考スコア(独自算出の注目度): 4.226584553326724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The correlation between the sharpness of loss minima and generalisation in
the context of deep neural networks has been subject to discussion for a long
time. Whilst mostly investigated in the context of selected benchmark data sets
in the area of computer vision, we explore this aspect for the audio scene
classification task of the DCASE2020 challenge data. Our analysis is based on
twodimensional filter-normalised visualisations and a derived sharpness
measure. Our exploratory analysis shows that sharper minima tend to show better
generalisation than flat minima -even more so for out-of-domain data, recorded
from previously unseen devices-, thus adding to the dispute about better
generalisation capabilities of flat minima. We further find that, in
particular, the choice of optimisers is a main driver of the sharpness of
minima and we discuss resulting limitations with respect to comparability. Our
code, trained model states and loss landscape visualisations are publicly
available.
- Abstract(参考訳): 深いニューラルネットワークの文脈における損失最小値のシャープさと一般化の相関は、長い間議論されてきた。
コンピュータビジョンの領域で選択されたベンチマークデータセットの文脈において主に研究されているが、DCASE2020チャレンジデータの音声シーン分類タスクにおけるこの側面について検討する。
本解析は, 2次元フィルタ正規化可視化と派生シャープネス測度に基づいている。
我々の探索分析では、フラットなミニマよりもシャープなミニマの方が、フラットなミニマよりも優れた一般化を示す傾向が示されている。
さらに、特に、オプティマイザの選択がミニマの鋭さの主要な要因であることに気付き、可視性に関して結果の限界について議論する。
私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。
関連論文リスト
- On Memorization and Privacy Risks of Sharpness Aware Minimization [7.515042219136927]
シャープネス認識最小化(SAM)によって達成される一般化ゲインは、非定型データポイントに対して特に顕著である。
この洞察はSAMに関連する高いプライバシーリスクを明らかにするのに役立ち、徹底的な経験的評価を通じて検証する。
論文 参考訳(メタデータ) (2023-09-30T20:59:07Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Underwater Object Classification and Detection: first results and open
challenges [1.1549572298362782]
本研究は,水中環境における物体検出の問題点を概観する。
我々は、従来の最先端(SOTA)アルゴリズムの欠点を分析し、定量化する。
論文 参考訳(メタデータ) (2022-01-04T04:54:08Z) - A Weakly-Supervised Semantic Segmentation Approach based on the Centroid
Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。
アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文 参考訳(メタデータ) (2020-10-26T09:08:21Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。