論文の概要: Audio Impairment Recognition Using a Correlation-Based Feature
Representation
- arxiv url: http://arxiv.org/abs/2003.09889v2
- Date: Tue, 24 Mar 2020 14:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:59:54.221206
- Title: Audio Impairment Recognition Using a Correlation-Based Feature
Representation
- Title(参考訳): 相関型特徴表現を用いた音声障害認識
- Authors: Alessandro Ragano, Emmanouil Benetos, Andrew Hines
- Abstract要約: 本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
- 参考スコア(独自算出の注目度): 85.08880949780894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio impairment recognition is based on finding noise in audio files and
categorising the impairment type. Recently, significant performance improvement
has been obtained thanks to the usage of advanced deep learning models.
However, feature robustness is still an unresolved issue and it is one of the
main reasons why we need powerful deep learning architectures. In the presence
of a variety of musical styles, hand-crafted features are less efficient in
capturing audio degradation characteristics and they are prone to failure when
recognising audio impairments and could mistakenly learn musical concepts
rather than impairment types. In this paper, we propose a new representation of
hand-crafted features that is based on the correlation of feature pairs. We
experimentally compare the proposed correlation-based feature representation
with a typical raw feature representation used in machine learning and we show
superior performance in terms of compact feature dimensionality and improved
computational speed in the test stage whilst achieving comparable accuracy.
- Abstract(参考訳): 音声障害認識は、音声ファイル内の雑音の検出と障害タイプ分類に基づいている。
近年,高度なディープラーニングモデルの利用により,大幅に性能が向上している。
しかし、機能の堅牢性はまだ未解決の問題であり、強力なディープラーニングアーキテクチャを必要とする主な理由の1つです。
様々な音楽スタイルが存在する場合、手作りの機能はオーディオ劣化特性を捉えるのに効率が悪く、オーディオ障害を認識する際に失敗する傾向にあり、音楽概念を誤って学習することができる。
本稿では,特徴対の相関関係に基づく手作り特徴の新たな表現を提案する。
提案した相関に基づく特徴表現と機械学習で使用される典型的な原特徴表現とを実験的に比較し、比較精度を確保しつつ、コンパクトな特徴次元とテスト段階での計算速度の改善の観点から優れた性能を示す。
関連論文リスト
- Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。