論文の概要: Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms
- arxiv url: http://arxiv.org/abs/2401.12238v1
- Date: Fri, 19 Jan 2024 19:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:06:01.591353
- Title: Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms
- Title(参考訳): spatial scaper: 実室における音のイベント定位と検出のための音環境のシミュレーションと拡張のためのライブラリ
- Authors: Iran R. Roman, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian
McFee, Juan P. Bello
- Abstract要約: 音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
- 参考スコア(独自算出の注目度): 4.266697413924045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event localization and detection (SELD) is an important task in machine
listening. Major advancements rely on simulated data with sound events in
specific rooms and strong spatio-temporal labels. SELD data is simulated by
convolving spatialy-localized room impulse responses (RIRs) with sound
waveforms to place sound events in a soundscape. However, RIRs require manual
collection in specific rooms. We present SpatialScaper, a library for SELD data
simulation and augmentation. Compared to existing tools, SpatialScaper emulates
virtual rooms via parameters such as size and wall absorption. This allows for
parameterized placement (including movement) of foreground and background sound
sources. SpatialScaper also includes data augmentation pipelines that can be
applied to existing SELD data. As a case study, we use SpatialScaper to add
rooms to the DCASE SELD data. Training a model with our data led to progressive
performance improves as a direct function of acoustic diversity. These results
show that SpatialScaper is valuable to train robust SELD models.
- Abstract(参考訳): sound event localization and detection (seld)はマシンリスニングの重要なタスクである。
主な進歩は、特定の部屋での音響イベントと強い時空間ラベルによるシミュレーションデータに依存する。
SELDデータは、空間局在室インパルス応答(RIR)と音波形を結び、音のスケープに音イベントを配置することでシミュレーションされる。
しかし、RIRは特定の部屋で手動で収集する必要がある。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
既存のツールと比較して、spatialscaperはサイズや壁の吸収といったパラメータを使って仮想部屋をエミュレートする。
これにより、前景と背景音源のパラメータ化された配置(移動を含む)が可能になる。
SpaceScaperには、既存のSELDデータに適用可能なデータ拡張パイプラインも含まれている。
ケーススタディでは、SpatialScaperを使用して、DCASE SELDデータに部屋を追加します。
データを用いたモデルトレーニングは、音響多様性の直接的な機能として、進歩的な性能向上につながった。
これらの結果は、SpatialScaperが堅牢なSELDモデルのトレーニングに有用であることを示している。
関連論文リスト
- HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios [19.24195341920164]
移動音源データを生成する合成ツールキットであるSonicSimを紹介する。
シーンレベル、マイクレベル、ソースレベルを含むマルチレベル調整をサポートする。
合成データと実世界のデータの違いを検証するため,残響のない生データの5時間をランダムに選択した。
その結果,SonicSimが生成した合成データは実世界のシナリオに効果的に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:33:59Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation [2.6763498831034043]
本稿では,任意の頭部伝達関数(HRTF)のセットが与えられると,室内インパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
論文 参考訳(メタデータ) (2021-06-24T13:07:51Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。