Fugu-MT 論文翻訳(概要): Bringing the Discussion of Minima Sharpness to the Audio Domain: a Filter-Normalised Evaluation for Acoustic Scene Classification

論文の概要: Bringing the Discussion of Minima Sharpness to the Audio Domain: a Filter-Normalised Evaluation for Acoustic Scene Classification

arxiv url: http://arxiv.org/abs/2309.16369v1
Date: Thu, 28 Sep 2023 12:13:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 14:47:57.653573
Title: Bringing the Discussion of Minima Sharpness to the Audio Domain: a Filter-Normalised Evaluation for Acoustic Scene Classification
Title（参考訳）: 音響領域におけるミニマシャープ性に関する考察:音響シーン分類のためのフィルタ非正規化評価
Authors: Manuel Milling, Andreas Triantafyllopoulos, Iosif Tsangko, Simon David Noel Rampp, Bj\"orn Wolfgang Schuller
Abstract要約: 深層ニューラルネットワークにおける損失最小値のシャープネスと一般化の相関について検討する。解析は,2次元のフィルタ正規化可視化と抽出されたシャープネス尺度に基づく。私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。
参考スコア（独自算出の注目度）: 4.226584553326724
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The correlation between the sharpness of loss minima and generalisation in the context of deep neural networks has been subject to discussion for a long time. Whilst mostly investigated in the context of selected benchmark data sets in the area of computer vision, we explore this aspect for the audio scene classification task of the DCASE2020 challenge data. Our analysis is based on twodimensional filter-normalised visualisations and a derived sharpness measure. Our exploratory analysis shows that sharper minima tend to show better generalisation than flat minima -even more so for out-of-domain data, recorded from previously unseen devices-, thus adding to the dispute about better generalisation capabilities of flat minima. We further find that, in particular, the choice of optimisers is a main driver of the sharpness of minima and we discuss resulting limitations with respect to comparability. Our code, trained model states and loss landscape visualisations are publicly available.
Abstract（参考訳）: 深いニューラルネットワークの文脈における損失最小値のシャープさと一般化の相関は、長い間議論されてきた。コンピュータビジョンの領域で選択されたベンチマークデータセットの文脈において主に研究されているが、DCASE2020チャレンジデータの音声シーン分類タスクにおけるこの側面について検討する。本解析は, 2次元フィルタ正規化可視化と派生シャープネス測度に基づいている。我々の探索分析では、フラットなミニマよりもシャープなミニマの方が、フラットなミニマよりも優れた一般化を示す傾向が示されている。さらに、特に、オプティマイザの選択がミニマの鋭さの主要な要因であることに気付き、可視性に関して結果の限界について議論する。私たちのコード、トレーニングされたモデル状態、損失ランドスケープの可視化が公開されています。

関連論文リスト

Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models [18.624825577944854]
REVISは、抑圧された視覚情報を明示的に再活性化するために設計されたトレーニング不要のフレームワークである。その結果,REVISは最先端のベースラインに比べて物体幻覚率を約19%削減できることがわかった。
論文参考訳（メタデータ） (2026-02-12T11:07:44Z)
A Function Centric Perspective On Flat and Sharp Minima [4.908739793053431]
フラット・ミニマはディープ・ニューラル・ネットワークにおける一般化の改善と相関していると広く信じられている。本稿では, 急激さを関数依存特性として理解することが, 一般化の信頼性の低い指標よりも重要であることを提案する。
論文参考訳（メタデータ） (2025-10-14T12:33:14Z)
On Memorization and Privacy Risks of Sharpness Aware Minimization [7.515042219136927]
シャープネス認識最小化(SAM)によって達成される一般化ゲインは、非定型データポイントに対して特に顕著である。この洞察はSAMに関連する高いプライバシーリスクを明らかにするのに役立ち、徹底的な経験的評価を通じて検証する。
論文参考訳（メタデータ） (2023-09-30T20:59:07Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。 DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文参考訳（メタデータ） (2022-12-05T14:00:59Z)
Underwater Object Classification and Detection: first results and open challenges [1.1549572298362782]
本研究は,水中環境における物体検出の問題点を概観する。我々は、従来の最先端(SOTA)アルゴリズムの欠点を分析し、定量化する。
論文参考訳（メタデータ） (2022-01-04T04:54:08Z)
A Weakly-Supervised Semantic Segmentation Approach based on the Centroid Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文参考訳（メタデータ） (2020-10-26T09:08:21Z)
Open-set Short Utterance Forensic Speaker Verification using Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2020-09-21T00:58:40Z)
Cross-domain Adaptation with Discrepancy Minimization for Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文参考訳（メタデータ） (2020-09-05T02:54:33Z)
The Little W-Net That Could: State-of-the-Art Retinal Vessel Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。また,W-Netと呼ばれる単純な拡張も提案する。また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文参考訳（メタデータ） (2020-09-03T19:59:51Z)
Capturing scattered discriminative information using a deep architecture in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。 2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文参考訳（メタデータ） (2020-07-09T08:32:06Z)
ADRN: Attention-based Deep Residual Network for Hyperspectral Image Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-04T08:36:27Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。