論文の概要: Foreground-Background Ambient Sound Scene Separation
- arxiv url: http://arxiv.org/abs/2005.07006v2
- Date: Mon, 27 Jul 2020 14:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 21:04:06.985032
- Title: Foreground-Background Ambient Sound Scene Separation
- Title(参考訳): 前景-背景環境音場分離
- Authors: Michel Olvera (MULTISPEECH), Emmanuel Vincent (MULTISPEECH), Romain
Serizel (MULTISPEECH), Gilles Gasso (LITIS)
- Abstract要約: 本稿では,特徴量正規化方式と,背景統計を収集する予備的ネットワークを備えたディープラーニングに基づく分離フレームワークを提案する。
我々は様々な信号対雑音比で、見知らぬ音のクラスを混合した広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambient sound scenes typically comprise multiple short events occurring on
top of a somewhat stationary background. We consider the task of separating
these events from the background, which we call foreground-background ambient
sound scene separation. We propose a deep learning-based separation framework
with a suitable feature normaliza-tion scheme and an optional auxiliary network
capturing the background statistics, and we investigate its ability to handle
the great variety of sound classes encountered in ambient sound scenes, which
have often not been seen in training. To do so, we create single-channel
foreground-background mixtures using isolated sounds from the DESED and
Audioset datasets, and we conduct extensive experiments with mixtures of seen
or unseen sound classes at various signal-to-noise ratios. Our experimental
findings demonstrate the generalization ability of the proposed approach.
- Abstract(参考訳): 環境音のシーンは通常、いくつかの静止した背景の上に起こる複数の短いイベントで構成される。
我々は,これらのイベントを背景から分離するタスクについて検討し,その課題をフォアグラウンド・バックグラウンド・アンビエント・シーン分離と呼ぶ。
本稿では,特徴正規化スキームと任意の補助ネットワークを用いた,背景統計をキャプチャする深層学習に基づく分離フレームワークを提案する。
そこで我々は,DESEDデータセットとオーディオセットデータセットから分離した音を用いて,単チャンネル前景混合体を作成し,様々な信号対雑音比で見知らぬ音の混合体を用いた広範囲な実験を行った。
実験の結果,提案手法の一般化能力が示された。
関連論文リスト
- Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T11:44:14Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文 参考訳(メタデータ) (2021-05-05T15:37:17Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。