Fugu-MT 論文翻訳(概要): Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset

論文の概要: Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset

arxiv url: http://arxiv.org/abs/2410.00980v1
Date: Tue, 1 Oct 2024 18:09:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 23:49:57.125762
Title: Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset
Title（参考訳）: ブロードサウンド分類とデータセットによる異種音分類
Authors: Panagiota Anastasopoulou, Jessica Torrey, Xavier Serra, Frederic Font,
Abstract要約: 本稿では,異種音の自動分類手法について検討する。手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
参考スコア（独自算出の注目度）: 6.91815289914328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic sound classification has a wide range of applications in machine listening, enabling context-aware sound processing and understanding. This paper explores methodologies for automatically classifying heterogeneous sounds characterized by high intra-class variability. Our study evaluates the classification task using the Broad Sound Taxonomy, a two-level taxonomy comprising 28 classes designed to cover a heterogeneous range of sounds with semantic distinctions tailored for practical user applications. We construct a dataset through manual annotation to ensure accuracy, diverse representation within each class and relevance in real-world scenarios. We compare a variety of both traditional and modern machine learning approaches to establish a baseline for the task of heterogeneous sound classification. We investigate the role of input features, specifically examining how acoustically derived sound representations compare to embeddings extracted with pre-trained deep neural networks that capture both acoustic and semantic information about sounds. Experimental results illustrate that audio embeddings encoding acoustic and semantic information achieve higher accuracy in the classification task. After careful analysis of classification errors, we identify some underlying reasons for failure and propose actions to mitigate them. The paper highlights the need for deeper exploration of all stages of classification, understanding the data and adopting methodologies capable of effectively handling data complexity and generalizing in real-world sound environments.
Abstract（参考訳）: 自動音声分類は、機械聴取において幅広い応用があり、文脈対応の音声処理と理解を可能にしている。本稿では,異種音の自動分類手法について検討する。本研究では,Broad Sound Taxonomy を用いた分類課題について検討した。Broad Sound Taxonomy は,多種多様な音をカバーし,実用的なユーザアプリケーションに適した意味的特徴を持つ28のクラスからなる2段階の分類法である。手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。異種音の分類作業のベースラインを確立するために,従来の機械学習手法と現代の機械学習手法を比較した。本研究では,音の音響的情報と意味的情報の両方をキャプチャする,事前学習したディープニューラルネットワークを用いて抽出した埋め込みと,音響的に導出された音響的表現がどのように比較されるかについて検討する。実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。分類誤りを慎重に分析した後、障害の原因をいくつか特定し、それらを緩和するためのアクションを提案する。本論文は,実世界の音環境において,データの複雑さを効果的に処理し,一般化することのできる,あらゆる段階の分類,データの理解,方法論の採用の必要性を強調した。

関連論文リスト

Improving Hate Speech Classification with Cross-Taxonomy Dataset Integration [0.0]
この研究は、単一のフレームワーク内で幅広い定義を検出することができる普遍的な分類法とヘイトスピーチ分類法を導入している。我々のアプローチは、2つの広く使われているが異なる注釈付きデータセットを組み合わせることで検証される。この研究は、ヘイトスピーチの検出を推進し、効率を向上し、コンテキスト間の広範な適用性を確保する上で、データセットと分類学の統合の可能性を強調している。
論文参考訳（メタデータ） (2025-03-07T12:01:02Z)
Label-template based Few-Shot Text Classification with Contrastive Learning [7.964862748983985]
本稿では,単純かつ効果的なテキスト分類フレームワークを提案する。ラベルテンプレートは入力文に埋め込まれ、クラスラベルの潜在値を完全に活用する。教師付きコントラスト学習を用いて、サポートサンプルとクエリサンプル間の相互作用情報をモデル化する。
論文参考訳（メタデータ） (2024-12-13T12:51:50Z)
Probing the Information Encoded in Neural-based Acoustic Models of Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:43:53Z)
WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文参考訳（メタデータ） (2024-02-20T11:36:23Z)
Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文参考訳（メタデータ） (2023-03-12T06:11:44Z)
Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。固体アンサンブル分類器を構築するためのプール選択戦略が提示される。我々は異常検出手法の不確実性を利用する。
論文参考訳（メタデータ） (2022-12-23T00:50:41Z)
Representation Learning for the Automatic Indexing of Sound Effects Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文参考訳（メタデータ） (2022-08-18T23:46:13Z)
Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。 NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文参考訳（メタデータ） (2022-04-27T04:24:35Z)
A Comparative Study on Approaches to Acoustic Scene Classification using CNNs [0.0]
異なる種類の表現は、分類の精度に劇的な影響を及ぼす。我々は,異なるCNNネットワークとオートエンコーダを用いて,スペクトル,MFCC,埋め込み表現について検討した。その結果,MFCCは分類精度が最も低いのに対し,スペクトル表現は分類精度が最も高いことがわかった。
論文参考訳（メタデータ） (2022-04-26T09:23:29Z)
Interpreting deep urban sound classification using Layer-wise Relevance Propagation [5.177947445379688]
本研究は, 都市音分類のためのディープニューラルネットワークを構築することにより, 聴覚障害に悩まされるドライバの敏感な応用に焦点を当てた。我々は,MelとConstant-Qスペクトログラムの2つの異なる音声信号表現を使用し,ディープニューラルネットワークによる決定は,レイヤワイド関連伝搬によって説明される。総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。
論文参考訳（メタデータ） (2021-11-19T14:15:45Z)
Capturing scattered discriminative information using a deep architecture in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。 2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文参考訳（メタデータ） (2020-07-09T08:32:06Z)
End-to-End Auditory Object Recognition via Inception Nucleus [7.22898229765707]
生波形入力を音響クラスラベルにマッピングする,新しいエンドツーエンドのディープニューラルネットワークを提案する。私たちのネットワークには、ハエの畳み込みフィルタのサイズを最適化する「開始核」が含まれています。
論文参考訳（メタデータ） (2020-05-25T16:08:41Z)
Latent Embedding Feedback and Discriminative Features for Zero-Shot Classification [139.44681304276]
ゼロショット学習は、トレーニング中にデータが利用できない、見えないカテゴリを分類することを目的としている。 Generative Adrial Networksは、クラス固有のセマンティック埋め込みを利用して、目に見えないクラス機能を合成する。我々は,ゼロショット学習のすべての段階において,意味的一貫性を強制することを提案する。
論文参考訳（メタデータ） (2020-03-17T17:34:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。