論文の概要: Perceptual Noise-Masking with Music through Deep Spectral Envelope Shaping
- arxiv url: http://arxiv.org/abs/2502.17527v1
- Date: Mon, 24 Feb 2025 07:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:12.046056
- Title: Perceptual Noise-Masking with Music through Deep Spectral Envelope Shaping
- Title(参考訳): ディープ・スペクトル・エンベロープ・シェーピングによる音楽による知覚ノイズマスキング
- Authors: Clémentine Berger, Roland Badeau, Slim Essid,
- Abstract要約: 人々はしばしば騒々しい環境で音楽を聴き、周囲の音から自分自身を隔離しようとします。
本研究では,音楽の周囲雑音をマスキングする能力を高めるために,心理音響マスキングモデルに基づくニューラルネットワークを提案する。
ノイズの多い環境下で、ユーザがヘッドフォンで音楽を聴いた経験を再現するシミュレーションデータに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 8.560397278656646
- License:
- Abstract: People often listen to music in noisy environments, seeking to isolate themselves from ambient sounds. Indeed, a music signal can mask some of the noise's frequency components due to the effect of simultaneous masking. In this article, we propose a neural network based on a psychoacoustic masking model, designed to enhance the music's ability to mask ambient noise by reshaping its spectral envelope with predicted filter frequency responses. The model is trained with a perceptual loss function that balances two constraints: effectively masking the noise while preserving the original music mix and the user's chosen listening level. We evaluate our approach on simulated data replicating a user's experience of listening to music with headphones in a noisy environment. The results, based on defined objective metrics, demonstrate that our system improves the state of the art.
- Abstract(参考訳): 人々はしばしば騒々しい環境で音楽を聴き、周囲の音から自分自身を隔離しようとします。
実際、音楽信号は、同時マスキングの影響により、ノイズの周波数成分の一部を隠蔽することができる。
本稿では,スペクトルエンベロープを予測周波数応答で変形させることにより,音楽の周囲雑音をマスキングする能力を高めるための心理音響マスキングモデルに基づくニューラルネットワークを提案する。
モデルは、オリジナルの音楽ミックスとユーザの選択した聴取レベルを維持しながら、効果的にノイズを隠蔽する2つの制約のバランスをとる知覚的損失関数で訓練される。
ノイズの多い環境下で、ユーザがヘッドフォンで音楽を聴いた経験を再現するシミュレーションデータに対するアプローチを評価する。
その結果、客観的な測定値に基づいて、我々のシステムが最先端技術を改善していることを示す。
関連論文リスト
- SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - Music Augmentation and Denoising For Peak-Based Audio Fingerprinting [0.0]
我々は,音楽スニペットにノイズを加える新しいオーディオ拡張パイプラインを現実的に導入し,リリースする。
次に、スペクトルからノイズの多い成分を除去するディープラーニングモデルを提案し、リリースする。
ノイズ条件下であっても,本モデルの追加により,一般的な音声指紋認証システムの識別性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T09:56:22Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Audio Denoising for Robust Audio Fingerprinting [0.0]
音楽発見サービスでは、ユーザーは短いモバイル録音から曲を識別できる。
これらの解は、多くの歪みに対して堅牢なスペクトルピークの抽出に特に依存する。
実環境で捉えた背景雑音に対するこれらのアルゴリズムの堅牢性を研究するための研究はほとんど行われていない。
論文 参考訳(メタデータ) (2022-12-21T09:46:12Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。
ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。
提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-05T10:05:44Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。