論文の概要: The First Cadenza Signal Processing Challenge: Improving Music for Those
With a Hearing Loss
- arxiv url: http://arxiv.org/abs/2310.05799v1
- Date: Mon, 9 Oct 2023 15:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:48:43.985275
- Title: The First Cadenza Signal Processing Challenge: Improving Music for Those
With a Hearing Loss
- Title(参考訳): 最初のカデンザ信号処理チャレンジ:聴覚障害のある人のための音楽改善
- Authors: Gerardo Roa Dabike, Scott Bannister, Jennifer Firth, Simone Graetzer,
Rebecca Vos, Michael A. Akeroyd, Jon Barker, Trevor J. Cox, Bruno Fazenda,
Alinka Greasley, William Whitmer
- Abstract要約: Cadenzaプロジェクトは、聴覚障害のある人のために、音楽の音質を改善することを目的としている。
これは、より優れた、より包括的な技術を促進するために、一連の信号処理の課題を通じて行われる。
主観評価のための聴力評価指標(HAAQI)と、主観評価のための聴力障害のある人のパネルを用いて、提案書の音質を評価する。
- 参考スコア(独自算出の注目度): 14.911901995353157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Cadenza project aims to improve the audio quality of music for those who
have a hearing loss. This is being done through a series of signal processing
challenges, to foster better and more inclusive technologies. In the first
round, two common listening scenarios are considered: listening to music over
headphones, and with a hearing aid in a car. The first scenario is cast as a
demixing-remixing problem, where the music is decomposed into vocals, bass,
drums and other components. These can then be intelligently remixed in a
personalized way, to increase the audio quality for a person who has a hearing
loss. In the second scenario, music is coming from car loudspeakers, and the
music has to be enhanced to overcome the masking effect of the car noise. This
is done by taking into account the music, the hearing ability of the listener,
the hearing aid and the speed of the car. The audio quality of the submissions
will be evaluated using the Hearing Aid Audio Quality Index (HAAQI) for
objective assessment and by a panel of people with hearing loss for subjective
evaluation.
- Abstract(参考訳): cadenzaプロジェクトは、難聴者のための音楽の音質を改善することを目的としている。
これは、より良くより包括的なテクノロジーを育むために、一連の信号処理の課題を通して行われている。
第1ラウンドでは、ヘッドフォンで音楽を聴くこと、車の中で補聴器で音楽を聴くことの2つの一般的なシナリオが検討されている。
最初のシナリオは、音楽がボーカル、ベース、ドラム、その他のコンポーネントに分解されるデミックス・リミックス問題としてキャストされる。
これらをパーソナライズした方法でインテリジェントにリミックスすることで、難聴のある人のオーディオ品質を向上させることができる。
第2のシナリオでは、自動車用スピーカーから音楽が生まれており、自動車騒音のマスキング効果を克服するために音楽を強化する必要がある。
これは、音楽、リスナーの聴覚能力、補聴器、車の速度を考慮して行われる。
提案音声の質は, 客観的評価のための補聴器音声品質指標(haaqi)と主観的評価のための難聴者パネルを用いて評価される。
関連論文リスト
- The first Cadenza challenges: using machine learning competitions to improve music for listeners with a hearing loss [2.8457245667398188]
音楽を聴くことは難聴者にとって問題であることは確かである。
機械学習はどのようにしてこの問題に対処できるのか?
本稿では,聴力障害のある者を対象とした,機械学習による音楽の音質向上のためのオープンチャレンジ手法の最初の応用について述べる。
論文 参考訳(メタデータ) (2024-09-08T13:45:45Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Deep Video Inpainting Guided by Audio-Visual Self-Supervision [25.841796702924444]
人間は、オーディオ視覚イベントに関する以前の知識に基づいて、聴覚情報からシーンを簡単に想像することができる。
本稿では,深層学習モデルにおける人間の本能を模倣し,映像の画質向上を図る。
論文 参考訳(メタデータ) (2023-10-11T17:03:21Z) - The ICASSP SP Cadenza Challenge: Music Demixing/Remixing for Hearing
Aids [15.361307797288497]
Cadenzaプロジェクトは、聴覚障害のある人のための音楽の音質向上に取り組んでいる。
この課題のシナリオは、補聴器を介してスピーカーのステレオ再生を聴くことだった。
ポップ/ロック音楽をボーカル、ドラム、ベース、その他(VDBO)に分解し、それぞれのトラックを特定のゲインでバランスさせ、ステレオにリミックスする。
論文 参考訳(メタデータ) (2023-10-05T11:46:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Enhancing Audio Perception of Music By AI Picked Room Acoustics [4.314956204483073]
私たちは、AIを使って特定の作品を実行するのに最適な部屋を見つけようとしています。
室内音響は,音の知覚的特性を高める手段として用いられる。
論文 参考訳(メタデータ) (2022-08-16T23:47:43Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。