論文の概要: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
- arxiv url: http://arxiv.org/abs/2410.01481v1
- Date: Wed, 2 Oct 2024 12:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:34:40.167619
- Title: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
- Title(参考訳): SonicSim:移動音源シナリオにおける音声処理のためのカスタマイズ可能なシミュレーションプラットフォーム
- Authors: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu,
- Abstract要約: 移動音源データを生成する合成ツールキットであるSonicSimを紹介する。
シーンレベル、マイクレベル、ソースレベルを含むマルチレベル調整をサポートする。
合成データと実世界のデータの違いを検証するため,残響のない生データの5時間をランダムに選択した。
その結果,SonicSimが生成した合成データは実世界のシナリオに効果的に一般化できることが示唆された。
- 参考スコア(独自算出の注目度): 19.24195341920164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.
- Abstract(参考訳): 移動音源条件下での音声分離と強化モデルの体系的評価は、典型的には多様なシナリオからなる広範囲なデータを必要とする。
しかし、実世界のデータセットは、モデルのトレーニングと評価の要求を満たすのに不十分なデータを含んでいることが多い。
合成データセットは大量のデータを提供するが、音響シミュレーションには現実性がない。
その結果、実世界のデータセットも合成データセットも現実的なニーズを効果的に満たさない。
これらの問題に対処するために、音源を移動させるための高度にカスタマイズ可能なデータを生成するための合成ツールキットであるSonicSimを紹介する。
SonicSimは、組み込みAIシミュレーションプラットフォームであるHabitat-simに基づいて開発されており、シーンレベル、マイクレベル、ソースレベルを含む複数レベルの調整をサポートし、より多様な合成データを生成する。
SonicSimを応用して、Librispeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)を用いて、移動音源ベンチマークデータセットSonicSetを構築し、Matterport3Dから90のシーンを作成し、音声分離と拡張モデルの評価を行った。
さらに、合成データと実世界のデータの違いを検証するために、SonicSet検証セットから残響のない5時間の生データをランダムに選択し、実世界の音声分離データセットを記録し、対応する合成データセットと比較した。
同様に、実世界の音声強調データセットRealMANを用いて、他の合成データセットと音声強調用SonicSetデータセットの音響的ギャップを検証する。
その結果,SonicSimが生成した合成データは実世界のシナリオに効果的に一般化できることが示唆された。
デモとコードはhttps://cslikai.cn/SonicSim/で公開されている。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - FSID: Fully Synthetic Image Denoising via Procedural Scene Generation [12.277286575812441]
低レベルの視覚タスクに適した手続き型合成データ生成パイプラインとデータセットを開発する。
我々のUnrealエンジンベースの合成データパイプラインは、ランダムな3Dオブジェクト、材料、幾何学的変換の組み合わせで、大きなシーンをアルゴリズムで生成します。
そこで我々は,CNNに基づく復調モデルの訓練と検証を行い,この合成データのみを用いてトレーニングしたモデルが競争性のある復調結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-07T21:21:55Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。