論文の概要: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
- arxiv url: http://arxiv.org/abs/2410.01481v2
- Date: Thu, 06 Mar 2025 04:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:55:04.221487
- Title: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
- Title(参考訳): SonicSim:移動音源シナリオにおける音声処理のためのカスタマイズ可能なシミュレーションプラットフォーム
- Authors: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu,
- Abstract要約: SonicSimは、AIシミュレーションプラットフォームHabitat-simをベースにした合成ツールキットである。
音源を動かすために高度にカスタマイズ可能なデータを生成する。
シーンレベルの調整、マイクレベルの調整、ソースレベルの調整など、マルチレベルの調整をサポートする。
- 参考スコア(独自算出の注目度): 19.24195341920164
- License:
- Abstract: Systematic evaluation of speech separation and enhancement models under moving sound source conditions requires extensive and diverse data. However, real-world datasets often lack sufficient data for training and evaluation, and synthetic datasets, while larger, lack acoustic realism. Consequently, neither effectively meets practical needs. To address this issue, we introduce SonicSim, a synthetic toolkit based on the embodied AI simulation platform Habitat-sim, designed to generate highly customizable data for moving sound sources. SonicSim supports multi-level adjustments, including scene-level, microphone-level, and source-level adjustments, enabling the creation of more diverse synthetic data. Leveraging SonicSim, we constructed a benchmark dataset called SonicSet, utilizing LibriSpeech, Freesound Dataset 50k (FSD50K), Free Music Archive (FMA), and 90 scenes from Matterport3D to evaluate speech separation and enhancement models. Additionally, to investigate the differences between synthetic and real-world data, we selected 5 hours of raw, non-reverberant data from the SonicSet validation set and recorded a real-world speech separation dataset, providing a reference for comparing SonicSet with other synthetic datasets. For speech enhancement, we utilized the real-world dataset RealMAN to validate the acoustic gap between SonicSet and existing synthetic datasets. The results indicate that models trained on SonicSet generalize better to real-world scenarios compared to other synthetic datasets. The code is publicly available at https://cslikai.cn/SonicSim/.
- Abstract(参考訳): 移動音源条件下での音声分離・強化モデルの体系的評価には,広範囲かつ多様なデータが必要である。
しかし、実世界のデータセットはトレーニングや評価に十分なデータを持っておらず、合成データセットは大きいが音響リアリズムに欠けることが多い。
その結果、どちらも事実上の要求に満たない。
本稿では,AIシミュレーションプラットフォームHabitat-simをベースとした合成ツールキットであるSonicSimを紹介する。
SonicSimはシーンレベル、マイクレベル、ソースレベルの調整を含むマルチレベル調整をサポートし、より多様な合成データを作成することができる。
SonicSimを利用して、LibriSpeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)、Matterport3Dの90のシーンを利用して、SonicSetというベンチマークデータセットを構築し、音声分離と拡張モデルの評価を行った。
さらに、合成データと実世界のデータの違いを調べるために、SonicSet検証セットから生の残響データを5時間選択し、実世界の音声分離データセットを記録し、SonicSetと他の合成データセットを比較したリファレンスを提供する。
音声強調のために,実世界のデータセットRealMANを用いて,SonicSetと既存の合成データセットの音響的ギャップを検証する。
その結果、SonicSetでトレーニングされたモデルは、他の合成データセットと比較して、現実のシナリオをより一般化することがわかった。
コードはhttps://cslikai.cn/SonicSim/で公開されている。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - FSID: Fully Synthetic Image Denoising via Procedural Scene Generation [12.277286575812441]
低レベルの視覚タスクに適した手続き型合成データ生成パイプラインとデータセットを開発する。
我々のUnrealエンジンベースの合成データパイプラインは、ランダムな3Dオブジェクト、材料、幾何学的変換の組み合わせで、大きなシーンをアルゴリズムで生成します。
そこで我々は,CNNに基づく復調モデルの訓練と検証を行い,この合成データのみを用いてトレーニングしたモデルが競争性のある復調結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-07T21:21:55Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。