論文の概要: Performance improvement of spatial semantic segmentation with enriched audio features and agent-based error correction for DCASE 2025 Challenge Task 4
- arxiv url: http://arxiv.org/abs/2506.21174v1
- Date: Thu, 26 Jun 2025 12:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.072464
- Title: Performance improvement of spatial semantic segmentation with enriched audio features and agent-based error correction for DCASE 2025 Challenge Task 4
- Title(参考訳): DCASE 2025 Challenge Task 4における音声特徴の充実とエージェントによる誤り訂正による空間意味的セグメンテーションの性能向上
- Authors: Jongyeon Park, Joonhee Lee, Do-Hyeon Lim, Hong Kook Kim, Hyeongcheol Geum, Jeong Eun Lim,
- Abstract要約: 本報告では,DCASE 2025 Challengeの第4タスクの提出システムについて述べる。
メルスペクトル機能から抽出した埋め込み機能に、追加のオーディオ機能が含まれている。
次に、S5システムによって処理された出力にエージェントベースのラベル補正システムを適用する。
- 参考スコア(独自算出の注目度): 2.68085089595424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents submission systems for Task 4 of the DCASE 2025 Challenge. This model incorporates additional audio features (spectral roll-off and chroma features) into the embedding feature extracted from the mel-spectral feature to im-prove the classification capabilities of an audio-tagging model in the spatial semantic segmentation of sound scenes (S5) system. This approach is motivated by the fact that mixed audio often contains subtle cues that are difficult to capture with mel-spectrograms alone. Thus, these additional features offer alterna-tive perspectives for the model. Second, an agent-based label correction system is applied to the outputs processed by the S5 system. This system reduces false positives, improving the final class-aware signal-to-distortion ratio improvement (CA-SDRi) metric. Finally, we refine the training dataset to enhance the classi-fication accuracy of low-performing classes by removing irrele-vant samples and incorporating external data. That is, audio mix-tures are generated from a limited number of data points; thus, even a small number of out-of-class data points could degrade model performance. The experiments demonstrate that the submit-ted systems employing these approaches relatively improve CA-SDRi by up to 14.7% compared to the baseline of DCASE 2025 Challenge Task 4.
- Abstract(参考訳): 本技術報告では,DCASE 2025チャレンジ第4タスクの提出システムについて述べる。
本モデルでは、メルスペクトル特徴から抽出した埋め込み機能に、追加の音声特徴(スペクトルロールオフおよびクロマ特徴)を組み込み、音声シーンの空間意味セグメント化(S5)システムにおいて、音声タグモデルの分類能力を高める。
このアプローチは、メル-スペクトログラムだけでは捉え難い微妙な手がかりが混在することが多いという事実に動機づけられる。
したがって、これらの追加機能はモデルに対する変化論的視点を提供する。
次に、S5システムによって処理された出力にエージェントベースのラベル補正システムを適用する。
このシステムは偽陽性を低減し、最終クラス認識信号-歪み比改善(CA-SDRi)の指標を改善する。
最後に,非効率なサンプルを除去し,外部データを組み込むことで,低性能クラスのクラスイフィケーション精度を向上させるためのトレーニングデータセットを改良する。
つまり、オーディオミキサーは、限られた数のデータポイントから生成されるため、少数のクラス外データポイントでさえ、モデルの性能を低下させる可能性がある。
実験の結果,DCASE 2025 Challenge Task 4のベースラインに比べてCA-SDRiは14.7%向上した。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Self-Adaptive Gamma Context-Aware SSM-based Model for Metal Defect Detection [3.5792989228178897]
金属欠陥検出は工業品質保証に重要である。
既存の方法は、グレースケールのバリエーションと複雑な欠陥状態に苦しむ。
本稿では,自己適応型ガンマコンテキスト認識SSMモデルを提案する。
論文 参考訳(メタデータ) (2025-03-03T06:57:54Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity [8.377398103067508]
本稿では、属性の精度を高めるために、属性指向のチェーン・オブ・ソート推論手法を提案する。
GPT-4を用いた2つの文脈付き質問応答データセットの評価により,属性の精度と正確性が改善された。
論文 参考訳(メタデータ) (2024-04-16T12:37:10Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。