論文の概要: Autonomous In-Situ Soundscape Augmentation via Joint Selection of Masker
and Gain
- arxiv url: http://arxiv.org/abs/2204.13883v1
- Date: Fri, 29 Apr 2022 04:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 15:04:24.852412
- Title: Autonomous In-Situ Soundscape Augmentation via Joint Selection of Masker
and Gain
- Title(参考訳): マスカーとゲインの同時選択による音環境の自律的拡張
- Authors: Karn N. Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting
Ong, and Woon-Seng Gan
- Abstract要約: 本研究では,学習モデルを用いて,与えられた音環境に対して最適なマスマと利得レベルを同時選択する。
提案したモデルは、高度にモジュール化されたビルディングブロックで設計され、最適化された推論プロセスを可能にした。
提案システムは,440人以上の参加者による拡張音環境に対する主観的応答の大規模データセット上で検証された。
- 参考スコア(独自算出の注目度): 11.932568093143491
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The selection of maskers and playback gain levels in a soundscape
augmentation system is crucial to its effectiveness in improving the overall
acoustic comfort of a given environment. Traditionally, the selection of
appropriate maskers and gain levels has been informed by expert opinion, which
may not representative of the target population, or by listening tests, which
can be time-consuming and labour-intensive. Furthermore, the resulting static
choices of masker and gain are often inflexible to the dynamic nature of
real-world soundscapes. In this work, we utilized a deep learning model to
perform joint selection of the optimal masker and its gain level for a given
soundscape. The proposed model was designed with highly modular building
blocks, allowing for an optimized inference process that can quickly search
through a large number of masker and gain combinations. In addition, we
introduced the use of feature-domain soundscape augmentation conditioned on the
digital gain level, eliminating the computationally expensive waveform-domain
mixing process during inference time, as well as the tedious pre-calibration
process required for new maskers. The proposed system was validated on a
large-scale dataset of subjective responses to augmented soundscapes with more
than 440 participants, ensuring the ability of the model to predict combined
effect of the masker and its gain level on the perceptual pleasantness level.
- Abstract(参考訳): 音環境拡張システムにおけるマスカの選択と再生利得レベルは,その環境全体の音響的快適性を向上させる上で重要である。
伝統的に、適切なマスキングとゲインレベルの選択は、対象人口を代表しない専門家の意見や、時間のかかる労働集約的なリスニングテストによって知らされてきた。
さらに、マスカとゲインの静的な選択は、実世界のサウンドスケープの動的な性質に柔軟性がないことが多い。
本研究では,学習モデルを用いて,与えられた音環境に対して最適なマスカと利得レベルを同時選択した。
提案モデルは高度にモジュール化されたビルディングブロックで設計され,多数のマスカを素早く探索し,組み合わせを得られるように最適化された推論プロセスを実現する。
さらに,デジタルゲインレベルを条件とした特徴領域の音場拡張,推論時間における計算コストの高い波形ドメイン混合プロセス,および新しいマスキングに必要な退屈な事前校正プロセスを導入している。
提案システムは,440名以上の参加者による拡張音環境に対する主観的反応の大規模データセット上で検証され,モデルがマスカの複合効果を予測し,その利得レベルが知覚的快感レベルに及ぼす影響を確認した。
関連論文リスト
- Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation [14.001679439460359]
固定空間格子に関する話者の時間周波数マスクと相対方向を用いて、ビームフォーマのパラメータを推定することができる。
マスクと位置の両方をグリッドにエンコードして,両量の同時推定を可能にする方法について分析する。
論文 参考訳(メタデータ) (2024-10-25T14:43:32Z) - SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model [7.266032317395858]
拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。
SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚刺激との明確な比例写像を探索する。
実世界のシナリオにおけるSoundMorpherの有効性と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-03T02:07:59Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Masked Motion Predictors are Strong 3D Action Representation Learners [143.9677635274393]
人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。
人間の関節において、マスク付き自己成分再構成を行うための一般的な前提に従わず、明示的な文脈運動モデリングが、3次元動作認識のための効果的な特徴表現の学習の成功の鍵となることを示す。
論文 参考訳(メタデータ) (2023-08-14T11:56:39Z) - Explainable Artificial Intelligence driven mask design for
self-supervised seismic denoising [0.0]
自己教師付きコヒーレントノイズ抑圧法は、ノイズ統計の広範な知識を必要とする。
本稿では,視覚ネットワークであるブラックボックスの内部を見るために,説明可能な人工知能アプローチを提案する。
ランダムに選択された多数の入力画素に対するジャコビアン寄与の簡易な平均化が、最も効果的なマスクの指標であることを示す。
論文 参考訳(メタデータ) (2023-07-13T11:02:55Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Modelling black-box audio effects with time-varying feature modulation [13.378050193507907]
ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。
時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。
提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2022-11-01T14:41:57Z) - Evaluating and Optimizing Hearing-Aid Self-Fitting Methods using
Population Coverage [0.4014524824655105]
軽度から軽度に聴力を失う成人は、聴力障害を従来の聴力障害のわずかなコストで治療するために、オーバーザカウンタ補聴器を使用することができる。
これらの製品には、聴覚学者の助けを借りずに、エンドユーザが補聴器を設定できる自己適合方式が組み込まれている。
本稿では,効率的な自己適合手法を設計する方法と,高価なユーザスタディに頼らずに設計の特定の側面を評価することができるかを検討する。
論文 参考訳(メタデータ) (2022-10-25T03:02:55Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。