Fugu-MT 論文翻訳(概要): Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators

論文の概要: Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators

arxiv url: http://arxiv.org/abs/2401.06203v2
Date: Thu, 1 Feb 2024 00:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 18:24:03.073357
Title: Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators
Title（参考訳）: 微調整音源分離器のアンサンブルを用いた補聴器用リミックス音楽
Authors: Matthew Daly
Abstract要約: 本稿では,Cadenza ICASSP 2024 Grand Challengeへのシステム提出について紹介する。補聴器利用者のための音楽のリミックスと強化の課題を提示する。本システムでは, 平均聴力支援音質指標(HAAQI)を達成し, 課題に先立ち, 平均聴力支援音質指標(HAAQI)を達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces our system submission for the Cadenza ICASSP 2024 Grand Challenge, which presents the problem of remixing and enhancing music for hearing aid users. Our system placed first in the challenge, achieving the best average Hearing-Aid Audio Quality Index (HAAQI) score on the evaluation data set. We describe the system, which uses an ensemble of deep learning music source separators that are fine tuned on the challenge data. We demonstrate the effectiveness of our system through the challenge results and analyze the importance of different system aspects through ablation studies.
Abstract（参考訳）: 本稿では, 補聴器利用者を対象としたリミックス・エンハンスメントの課題を提示する Cadenza ICASSP 2024 Grand Challenge のシステム提案について紹介する。本システムでは, 評価データセットにおいて, 平均聴力支援音質指標(HAAQI)の得点を達成し, 課題に先んじた。本稿では,チャレンジデータに基づいて微調整された深層学習音源分離器を用いたシステムについて述べる。課題の結果からシステムの有効性を実証し,アブレーション研究によって異なるシステム側面の重要性を分析する。

関連論文リスト

The first Cadenza challenges: using machine learning competitions to improve music for listeners with a hearing loss [2.8457245667398188]
音楽を聴くことは難聴者にとって問題であることは確かである。機械学習はどのようにしてこの問題に対処できるのか? 本稿では,聴力障害のある者を対象とした,機械学習による音楽の音質向上のためのオープンチャレンジ手法の最初の応用について述べる。
論文参考訳（メタデータ） (2024-09-08T13:45:45Z)
Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。我々は、音楽と音の2つの主要な分布シフト源を同定する。 2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文参考訳（メタデータ） (2024-08-08T19:40:28Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
The ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing Aids [15.361307797288497]
Cadenzaプロジェクトは、聴覚障害のある人のための音楽の音質向上に取り組んでいる。この課題のシナリオは、補聴器を介してスピーカーのステレオ再生を聴くことだった。ポップ/ロック音楽をボーカル、ドラム、ベース、その他(VDBO)に分解し、それぞれのトラックを特定のゲインでバランスさせ、ステレオにリミックスする。
論文参考訳（メタデータ） (2023-10-05T11:46:32Z)
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets [6.617487928813374]
本稿では,事前学習されたテキストとスペクトログラム変換器に基づく音声検索システムを提案する。我々のシステムは2023年のDCASE Challengeで第1位にランクされ、ClosoV2ベンチマークでは5.6 pp. mAP@10で最先端の技術を上回りました。
論文参考訳（メタデータ） (2023-08-08T13:46:55Z)
High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。 AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文参考訳（メタデータ） (2023-07-31T19:41:49Z)
NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文参考訳（メタデータ） (2021-07-02T16:55:08Z)
USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文参考訳（メタデータ） (2021-03-19T07:00:51Z)
Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。 1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文参考訳（メタデータ） (2020-10-22T20:14:59Z)
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文参考訳（メタデータ） (2020-09-24T01:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。