論文の概要: Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms
- arxiv url: http://arxiv.org/abs/2401.12238v1
- Date: Fri, 19 Jan 2024 19:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:06:01.591353
- Title: Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms
- Title(参考訳): spatial scaper: 実室における音のイベント定位と検出のための音環境のシミュレーションと拡張のためのライブラリ
- Authors: Iran R. Roman, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian
McFee, Juan P. Bello
- Abstract要約: 音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
- 参考スコア(独自算出の注目度): 4.266697413924045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event localization and detection (SELD) is an important task in machine
listening. Major advancements rely on simulated data with sound events in
specific rooms and strong spatio-temporal labels. SELD data is simulated by
convolving spatialy-localized room impulse responses (RIRs) with sound
waveforms to place sound events in a soundscape. However, RIRs require manual
collection in specific rooms. We present SpatialScaper, a library for SELD data
simulation and augmentation. Compared to existing tools, SpatialScaper emulates
virtual rooms via parameters such as size and wall absorption. This allows for
parameterized placement (including movement) of foreground and background sound
sources. SpatialScaper also includes data augmentation pipelines that can be
applied to existing SELD data. As a case study, we use SpatialScaper to add
rooms to the DCASE SELD data. Training a model with our data led to progressive
performance improves as a direct function of acoustic diversity. These results
show that SpatialScaper is valuable to train robust SELD models.
- Abstract(参考訳): sound event localization and detection (seld)はマシンリスニングの重要なタスクである。
主な進歩は、特定の部屋での音響イベントと強い時空間ラベルによるシミュレーションデータに依存する。
SELDデータは、空間局在室インパルス応答(RIR)と音波形を結び、音のスケープに音イベントを配置することでシミュレーションされる。
しかし、RIRは特定の部屋で手動で収集する必要がある。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
既存のツールと比較して、spatialscaperはサイズや壁の吸収といったパラメータを使って仮想部屋をエミュレートする。
これにより、前景と背景音源のパラメータ化された配置(移動を含む)が可能になる。
SpaceScaperには、既存のSELDデータに適用可能なデータ拡張パイプラインも含まれている。
ケーススタディでは、SpatialScaperを使用して、DCASE SELDデータに部屋を追加します。
データを用いたモデルトレーニングは、音響多様性の直接的な機能として、進歩的な性能向上につながった。
これらの結果は、SpatialScaperが堅牢なSELDモデルのトレーニングに有用であることを示している。
関連論文リスト
- BAT: Learning to Reason about Spatial Sounds with Large Language Models [48.48501269805149]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Implicit Event-RGBD Neural SLAM [57.48879389141497]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルネットワークSLAMフレームワークであるtextbfEN-SLAM$を提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Roll-Drop: accounting for observation noise with a single parameter [15.644420658691411]
本稿では,Deep-Reinforcement Learning(DRL)におけるsim-to-realのための簡単な戦略を提案する。
シミュレーション中にドロップアウトを使用して、各状態の分布を明示的にモデル化することなく、デプロイメント中の観測ノイズを考慮します。
観測では,最大25%のノイズを注入した場合の80%の成功率を示し,ベースラインの2倍の堅牢性を示した。
論文 参考訳(メタデータ) (2023-04-25T20:52:51Z) - Spatial mixup: Directional loudness modification as data augmentation
for sound event localization and detection [9.0259157539478]
データ拡張のためのパラメトリック空間音響効果の応用として空間混合を提案する。
修正は特定の方向から到着するシグナルを増強または抑制するが、効果は顕著ではない。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースライン上での性能が向上する。
論文 参考訳(メタデータ) (2021-10-12T16:16:58Z) - AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments [19.413143126734383]
音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。
提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
論文 参考訳(メタデータ) (2021-08-03T02:10:26Z) - SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation [2.6763498831034043]
本稿では,任意の頭部伝達関数(HRTF)のセットが与えられると,室内インパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
論文 参考訳(メタデータ) (2021-06-24T13:07:51Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。