論文の概要: Automatic Contextual Audio Denoising
- arxiv url: http://arxiv.org/abs/2605.22262v1
- Date: Thu, 21 May 2026 10:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.549948
- Title: Automatic Contextual Audio Denoising
- Title(参考訳): 環境音の自動デノイング
- Authors: Diep Luong, Konstantinos Drossos, Mikko Heikkinen, Tuomas Virtanen,
- Abstract要約: 音声コンテキストは、どの音成分と音源が関連しているかを判断し、リスナーによって無関係(ノイズ)と見なすことができる。
現代のほとんどのオーディオ復調システムでは、固定されたターゲットノイズの定義を適用し、無関係なコンポーネントを抑えるのに失敗しながら、1つのコンテキストで有用なコンポーネントを除去することが多い。
提案手法では,推定コンテキストに基づいてターゲットとノイズを定義する自動文脈音声デノイング (ACAD) の概念を導入する。
- 参考スコア(独自算出の注目度): 10.668322881347068
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio context determines which sound components and sources are relevant and which can be perceived as irrelevant (noise) by listeners. For example, traffic noise is informative in urban surveillance but noise for a phone call at the same location. Most current audio denoising systems apply fixed target-noise definitions, often removing useful components in one context while failing to suppress irrelevant components. To address this, we introduce the concept automatic contextual audio denoising (ACAD) which defines target and noise based on the inferred context. In this work, we restrict context to be associated with an acoustic scene class. We label sound events outside the event distribution of a scene class (noise) as out-of-context (OC) and events typical for that scene as in-context (IC). We implement a deep learning method that automatically infers the context of the audio signal and removes OC components, and benchmark it against variants: without context inference, with oracle context, and with separately provided uninformative context. On paired clean/noisy data across diverse contexts, where OC components in one context may be IC in another, our proposed method outperforms other approaches across standard objective metrics, indicating that the model can infer context and context-dependent processing can enhance denoising.
- Abstract(参考訳): 音声コンテキストは、どの音成分と音源が関連しているかを判断し、リスナーによって無関係(ノイズ)と見なすことができる。
例えば、交通騒音は都市監視において情報となるが、同一の場所での通話にはノイズがある。
現代のほとんどのオーディオ復調システムでは、固定されたターゲットノイズの定義を適用し、無関係なコンポーネントを抑えるのに失敗しながら、1つのコンテキストで有用なコンポーネントを除去することが多い。
そこで,本稿では,推定コンテキストに基づいてターゲットとノイズを定義する自動文脈音声デノゲーション (ACAD) の概念を導入する。
本研究では,音響シーンクラスに関連するコンテキストを限定する。
我々は、シーンクラス(ノイズ)のイベント分布外の音声イベントを、アウト・オブ・コンテクスト(OC)として、そのシーンに典型的なイベントをイン・コンテクスト(IC)としてラベル付けする。
音声信号のコンテキストを自動的に推論し、OC成分を除去し、文脈推論なしで、オラクルコンテキストで、また別々に提供された非形式的コンテキストでベンチマークする深層学習手法を実装した。
異なるコンテキストにおけるOCコンポーネントが別のコンテキストでICとなるような、ペア化されたクリーン/ノイズの多いデータに対して、提案手法は標準的な客観的指標をまたいだ他のアプローチよりも優れており、モデルがコンテキストを推測し、文脈に依存した処理がデノゲーションを高める可能性があることを示している。
関連論文リスト
- SpurAudio: A Benchmark for Studying Shortcut Learning in Few-Shot Audio Classification [4.791940743080381]
FSC(Few-shot Classification)は限られたラベル付きデータから学習するために広く用いられているが、ほとんどの評価では、ターゲット概念は文脈的手がかりとは無関係であると暗黙的に仮定している。
実世界の設定では、サンプルはリッチなコンテキストにしばしば現れ、モデルが前景のコンテンツと背景の信号の間の刺激的な相関を活用できる。
SpurAudioは、音声における前景イベントと背景環境の自然な分離性を利用して、サポートとクエリセット間のコンテキストシフトの制御されたマルチレベル評価を可能にするベンチマークである。
論文 参考訳(メタデータ) (2026-05-13T15:32:57Z) - Selective Noise Suppression and Discriminative Mutual Interaction for Robust Audio-Visual Segmentation [59.11043512784162]
本稿では,SNRPモジュールとDAMF戦略を備えたSDAVSを提案する。
実験により,提案手法はベンチマークAVSデータセットの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-03-15T03:22:24Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。