論文の概要: The first Cadenza challenges: using machine learning competitions to improve music for listeners with a hearing loss
- arxiv url: http://arxiv.org/abs/2409.05095v1
- Date: Sun, 8 Sep 2024 13:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:20:20.229653
- Title: The first Cadenza challenges: using machine learning competitions to improve music for listeners with a hearing loss
- Title(参考訳): Cadenzaの最初の課題:聴覚障害のあるリスナーのための音楽改善のための機械学習コンペティションの利用
- Authors: Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister, Jon P. Barker, Trevor J. Cox, Bruno Fazenda, Jennifer Firth, Simone Graetzer, Alinka Greasley, Rebecca R. Vos, William M. Whitmer,
- Abstract要約: 音楽を聴くことは難聴者にとって問題であることは確かである。
機械学習はどのようにしてこの問題に対処できるのか?
本稿では,聴力障害のある者を対象とした,機械学習による音楽の音質向上のためのオープンチャレンジ手法の最初の応用について述べる。
- 参考スコア(独自算出の注目度): 2.8457245667398188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well established that listening to music is an issue for those with hearing loss, and hearing aids are not a universal solution. How can machine learning be used to address this? This paper details the first application of the open challenge methodology to use machine learning to improve audio quality of music for those with hearing loss. The first challenge was a stand-alone competition (CAD1) and had 9 entrants. The second was an 2024 ICASSP grand challenge (ICASSP24) and attracted 17 entrants. The challenge tasks concerned demixing and remixing pop/rock music to allow a personalised rebalancing of the instruments in the mix, along with amplification to correct for raised hearing thresholds. The software baselines provided for entrants to build upon used two state-of-the-art demix algorithms: Hybrid Demucs and Open-Unmix. Evaluation of systems was done using the objective metric HAAQI, the Hearing-Aid Audio Quality Index. No entrants improved on the best baseline in CAD1 because there was insufficient room for improvement. Consequently, for ICASSP24 the scenario was made more difficult by using loudspeaker reproduction and specified gains to be applied before remixing. This also made the scenario more useful for listening through hearing aids. 9 entrants scored better than the the best ICASSP24 baseline. Most entrants used a refined version of Hybrid Demucs and NAL-R amplification. The highest scoring system combined the outputs of several demixing algorithms in an ensemble approach. These challenges are now open benchmarks for future research with the software and data being freely available.
- Abstract(参考訳): 音楽を聴くことは難聴者にとって問題であり、補聴器は普遍的な解決策ではないことがよく理解されている。
機械学習はどのようにしてこの問題に対処できるのか?
本稿では,聴力障害のある者を対象とした,機械学習による音楽の音質向上のためのオープンチャレンジ手法の最初の応用について述べる。
最初の挑戦はスタンドアローンの競技会(CAD1)であり、9人が参加していた。
2回目は2024年のICASSPグランドチャレンジ(ICASSP24)で17人が出場した。
ミックス中の楽器の個人化されたリバランスを可能にするために、ポップ/ロック音楽のデミックスとリミックスに関する課題に加えて、聴力閾値の上昇を補正するための増幅も行われた。
ソフトウェアベースラインは、最先端のデミックスアルゴリズムであるHybrid DemucsとOpen-Unmixの2つをベースに構築された。
客観的指標HAAQI(Hearing-Aid Audio Quality Index)を用いてシステム評価を行った。
CAD1では改善の余地が不十分であったため、参加者は最高のベースラインで改善しなかった。
その結果、ICASSP24では、スピーカー再生を用いることでシナリオをより困難にし、リミックス前に特定の利得を適用できた。
これにより、このシナリオは補聴器を通して聴くのに役立つ。
9人のエントリーがICASSP24ベースラインよりも成績が良かった。
ほとんどの参加者はハイブリッドデミューズとNAL-R増幅の洗練されたバージョンを使用していた。
最高スコアシステムは、いくつかのデミックスアルゴリズムの出力をアンサンブルアプローチで組み合わせた。
これらの課題は、将来の研究のためのオープンなベンチマークであり、ソフトウェアとデータは無償で利用可能である。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source
Separators [0.0]
本稿では,Cadenza ICASSP 2024 Grand Challengeへのシステム提出について紹介する。
補聴器利用者のための音楽のリミックスと強化の課題を提示する。
本システムでは, 平均聴力支援音質指標(HAAQI)を達成し, 課題に先立ち, 平均聴力支援音質指標(HAAQI)を達成した。
論文 参考訳(メタデータ) (2024-01-11T16:04:53Z) - The First Cadenza Signal Processing Challenge: Improving Music for Those
With a Hearing Loss [14.911901995353157]
Cadenzaプロジェクトは、聴覚障害のある人のために、音楽の音質を改善することを目的としている。
これは、より優れた、より包括的な技術を促進するために、一連の信号処理の課題を通じて行われる。
主観評価のための聴力評価指標(HAAQI)と、主観評価のための聴力障害のある人のパネルを用いて、提案書の音質を評価する。
論文 参考訳(メタデータ) (2023-10-09T15:36:15Z) - The ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing
Aids [15.361307797288497]
Cadenzaプロジェクトは、聴覚障害のある人のための音楽の音質向上に取り組んでいる。
この課題のシナリオは、補聴器を介してスピーカーのステレオ再生を聴くことだった。
ポップ/ロック音楽をボーカル、ドラム、ベース、その他(VDBO)に分解し、それぞれのトラックを特定のゲインでバランスさせ、ステレオにリミックスする。
論文 参考訳(メタデータ) (2023-10-05T11:46:32Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - DCASE 2022: Comparative Analysis Of CNNs For Acoustic Scene
Classification Under Low-Complexity Considerations [1.6704594205447996]
本稿では,従来のCNNとConv-mixerの2つの異なるネットワークアーキテクチャについて比較検討する。
両ネットワークは競合が必要とするベースラインを超えているが、従来のCNNの方が高い性能を示している。
Conv-mixerアーキテクチャに基づくソリューションは、より軽量なソリューションであるにもかかわらず、パフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2022-06-16T09:03:56Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。
この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。
本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文 参考訳(メタデータ) (2021-07-02T16:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。