Fugu-MT 論文翻訳(概要): SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

論文の概要: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

arxiv url: http://arxiv.org/abs/2410.01481v2
Date: Thu, 06 Mar 2025 04:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.444653
Title: SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios
Title（参考訳）: SonicSim:移動音源シナリオにおける音声処理のためのカスタマイズ可能なシミュレーションプラットフォーム
Authors: Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu,
Abstract要約: SonicSimは、AIシミュレーションプラットフォームHabitat-simをベースにした合成ツールキットである。音源を動かすために高度にカスタマイズ可能なデータを生成する。シーンレベルの調整、マイクレベルの調整、ソースレベルの調整など、マルチレベルの調整をサポートする。
参考スコア（独自算出の注目度）: 19.24195341920164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Systematic evaluation of speech separation and enhancement models under moving sound source conditions requires extensive and diverse data. However, real-world datasets often lack sufficient data for training and evaluation, and synthetic datasets, while larger, lack acoustic realism. Consequently, neither effectively meets practical needs. To address this issue, we introduce SonicSim, a synthetic toolkit based on the embodied AI simulation platform Habitat-sim, designed to generate highly customizable data for moving sound sources. SonicSim supports multi-level adjustments, including scene-level, microphone-level, and source-level adjustments, enabling the creation of more diverse synthetic data. Leveraging SonicSim, we constructed a benchmark dataset called SonicSet, utilizing LibriSpeech, Freesound Dataset 50k (FSD50K), Free Music Archive (FMA), and 90 scenes from Matterport3D to evaluate speech separation and enhancement models. Additionally, to investigate the differences between synthetic and real-world data, we selected 5 hours of raw, non-reverberant data from the SonicSet validation set and recorded a real-world speech separation dataset, providing a reference for comparing SonicSet with other synthetic datasets. For speech enhancement, we utilized the real-world dataset RealMAN to validate the acoustic gap between SonicSet and existing synthetic datasets. The results indicate that models trained on SonicSet generalize better to real-world scenarios compared to other synthetic datasets. The code is publicly available at https://cslikai.cn/SonicSim/.
Abstract（参考訳）: 移動音源条件下での音声分離・強化モデルの体系的評価には,広範囲かつ多様なデータが必要である。しかし、実世界のデータセットはトレーニングや評価に十分なデータを持っておらず、合成データセットは大きいが音響リアリズムに欠けることが多い。その結果、どちらも事実上の要求に満たない。本稿では,AIシミュレーションプラットフォームHabitat-simをベースとした合成ツールキットであるSonicSimを紹介する。 SonicSimはシーンレベル、マイクレベル、ソースレベルの調整を含むマルチレベル調整をサポートし、より多様な合成データを作成することができる。 SonicSimを利用して、LibriSpeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)、Matterport3Dの90のシーンを利用して、SonicSetというベンチマークデータセットを構築し、音声分離と拡張モデルの評価を行った。さらに、合成データと実世界のデータの違いを調べるために、SonicSet検証セットから生の残響データを5時間選択し、実世界の音声分離データセットを記録し、SonicSetと他の合成データセットを比較したリファレンスを提供する。音声強調のために,実世界のデータセットRealMANを用いて,SonicSetと既存の合成データセットの音響的ギャップを検証する。その結果、SonicSetでトレーニングされたモデルは、他の合成データセットと比較して、現実のシナリオをより一般化することがわかった。コードはhttps://cslikai.cn/SonicSim/で公開されている。

関連論文リスト

In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:41:56Z)
Procedural Dataset Generation for Zero-Shot Stereo Matching [62.21867807221371]
ゼロショットステレオデータセットに最適化されたプロシージャジェネレータを開発した。標準ベンチマークを用いてゼロショットステレオマッチング性能への影響を報告する。我々は,プロシージャステレオデータセットのさらなる研究を可能にするために,我々のシステムをオープンソース化した。
論文参考訳（メタデータ） (2025-04-23T17:59:33Z)
Generating Synthetic Oracle Datasets to Analyze Noise Impact: A Study on Building Function Classification Using Tweets [16.88765929875316]
ビルディング関数(BFC)では、ツイートはジオグラフィックを使用して収集され、外部データベースを通じてラベル付けされる。文レベルの特徴雑音の影響は、主に制御分析のためのクリーンなベンチマークデータセットが欠如していることから、まだ探索されていない。本研究では,LLMを用いた合成データセット生成手法を提案する。
論文参考訳（メタデータ） (2025-03-28T20:18:28Z)
Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文参考訳（メタデータ） (2024-11-13T06:55:18Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文参考訳（メタデータ） (2024-05-05T06:01:31Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
FSID: Fully Synthetic Image Denoising via Procedural Scene Generation [12.277286575812441]
低レベルの視覚タスクに適した手続き型合成データ生成パイプラインとデータセットを開発する。我々のUnrealエンジンベースの合成データパイプラインは、ランダムな3Dオブジェクト、材料、幾何学的変換の組み合わせで、大きなシーンをアルゴリズムで生成します。そこで我々は,CNNに基づく復調モデルの訓練と検証を行い,この合成データのみを用いてトレーニングしたモデルが競争性のある復調結果が得られることを示した。
論文参考訳（メタデータ） (2022-12-07T21:21:55Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Semi-synthesis: A fast way to produce effective datasets for stereo matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文参考訳（メタデータ） (2021-01-26T14:34:49Z)
CycleISP: Real Image Restoration via Improved Data Synthesis [166.17296369600774]
本稿では,前向きと逆方向のカメラ画像パイプラインをモデル化するフレームワークを提案する。リアルな合成データに基づいて新しい画像認識ネットワークをトレーニングすることにより、実際のカメラベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-03-17T15:20:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。