論文の概要: BNMusic: Blending Environmental Noises into Personalized Music
- arxiv url: http://arxiv.org/abs/2506.10754v1
- Date: Thu, 12 Jun 2025 14:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.783
- Title: BNMusic: Blending Environmental Noises into Personalized Music
- Title(参考訳): BNMusic:パーソナライズされた音楽に環境騒音を流す
- Authors: Chi Zuo, Martin B. Møller, Pablo Martínez-Nuevo, Huayang Huang, Yu Wu, Ye Zhu,
- Abstract要約: 本稿では,2つの重要なステージを持つパーソナライズド・ミュージック(BNMusic)フレームワークを提案する。
第1段階は、音楽の本質をカプセル化したメル・スペクトログラム表現で完全な楽曲を合成する。
第2段階では、生成した音楽セグメントを適応的に増幅し、さらにノイズ知覚を低減し、ブレンディングの有効性を高める。
- 参考スコア(独自算出の注目度): 11.253264308431953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While being disturbed by environmental noises, the acoustic masking technique is a conventional way to reduce the annoyance in audio engineering that seeks to cover up the noises with other dominant yet less intrusive sounds. However, misalignment between the dominant sound and the noise-such as mismatched downbeats-often requires an excessive volume increase to achieve effective masking. Motivated by recent advances in cross-modal generation, in this work, we introduce an alternative method to acoustic masking, aiming to reduce the noticeability of environmental noises by blending them into personalized music generated based on user-provided text prompts. Following the paradigm of music generation using mel-spectrogram representations, we propose a Blending Noises into Personalized Music (BNMusic) framework with two key stages. The first stage synthesizes a complete piece of music in a mel-spectrogram representation that encapsulates the musical essence of the noise. In the second stage, we adaptively amplify the generated music segment to further reduce noise perception and enhance the blending effectiveness, while preserving auditory quality. Our experiments with comprehensive evaluations on MusicBench, EPIC-SOUNDS, and ESC-50 demonstrate the effectiveness of our framework, highlighting the ability to blend environmental noise with rhythmically aligned, adaptively amplified, and enjoyable music segments, minimizing the noticeability of the noise, thereby improving overall acoustic experiences.
- Abstract(参考訳): 環境騒音に悩まされている一方で、音響マスキング技術は、音響工学における不快さを減らし、他の支配的だが邪魔にならない音で騒音を覆い隠そうとする従来の方法である。
しかし、支配音と不整合ダウンビートのようなノイズとの相違は、効果的なマスキングを実現するために過剰な音量増加を必要とする。
近年のクロスモーダル・ジェネレーションの進歩により,ユーザが提供するテキスト・プロンプトをベースとしたパーソナライズされた音楽に混入することで,環境騒音の注意を減らし,アコースティック・マスキングの代替手法を導入する。
メル・スペクトログラム表現を用いた音楽生成のパラダイムに従って,2つの重要なステージを持つパーソナライズド・ミュージック(BNMusic)フレームワークを提案する。
第1段階は、音楽の本質をカプセル化したメル・スペクトログラム表現で完全な楽曲を合成する。
第2段階では、音質を保ちながら、生成した音楽セグメントを適応的に増幅し、さらにノイズ知覚を低減し、ブレンディングの有効性を高める。
MusicBench, EPIC-SOUNDS, ESC-50の総合評価実験により, 環境騒音をリズミカルに整列し, 適応的に増幅し, 楽しむ音楽セグメントとブレンドし, 騒音の消音性を最小化し, 全体的な音響経験を向上できることを示した。
関連論文リスト
- NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration [25.13251765490759]
本稿では,映像生成のコンピテンシーを高めるために,マルチレベルノイズデコントローラ,マルチフレームノイズデコントローラ,ジョイントデノイングを提案する。
我々は,映像生成タスクと下流タスクの公開データセットに対するノイズコントローラの評価を行い,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-04-25T16:01:48Z) - SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。
SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文 参考訳(メタデータ) (2025-04-08T00:22:16Z) - Perceptual Noise-Masking with Music through Deep Spectral Envelope Shaping [8.560397278656646]
人々はしばしば騒々しい環境で音楽を聴き、周囲の音から自分自身を隔離しようとします。
本研究では,音楽の周囲雑音をマスキングする能力を高めるために,心理音響マスキングモデルに基づくニューラルネットワークを提案する。
ノイズの多い環境下で、ユーザがヘッドフォンで音楽を聴いた経験を再現するシミュレーションデータに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-24T07:58:10Z) - Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals [31.30005077444649]
本稿では、マイクロホンアレイ信号から、Array2BRと略される新しいエンドツーエンドノイズ免疫合成フレームワークを提案する。
従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-08T06:55:35Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training [18.71152526968065]
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-01-27T06:56:51Z) - Exploiting Time-Frequency Conformers for Music Audio Enhancement [21.243039524049614]
コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
論文 参考訳(メタデータ) (2023-08-24T06:56:54Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。