論文の概要: SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation
- arxiv url: http://arxiv.org/abs/2106.12992v1
- Date: Thu, 24 Jun 2021 13:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 21:19:17.939967
- Title: SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation
- Title(参考訳): sofamyroom:バイノーラルルームインパルス応答データセット生成のための高速でマルチプラットフォームな"shoebox"ルームシミュレータ
- Authors: Roberto Barumerli, Daniele Bianchi, Michele Geronazzo, Federico
Avanzini
- Abstract要約: 本稿では,任意の頭部伝達関数(HRTF)のセットが与えられると,室内インパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a shoebox room simulator able to systematically
generate synthetic datasets of binaural room impulse responses (BRIRs) given an
arbitrary set of head-related transfer functions (HRTFs). The evaluation of
machine hearing algorithms frequently requires BRIR datasets in order to
simulate the acoustics of any environment. However, currently available
solutions typically consider only HRTFs measured on dummy heads, which poorly
characterize the high variability in spatial sound perception. Our solution
allows to integrate a room impulse response (RIR) simulator with different HRTF
sets represented in Spatially Oriented Format for Acoustics (SOFA). The source
code and the compiled binaries for different operating systems allow to both
advanced and non-expert users to benefit from our toolbox, see
https://github.com/spatialaudiotools/sofamyroom/ .
- Abstract(参考訳): 本稿では,任意の頭部伝達関数(HRTF)を与えられたバイノーラルルームインパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
しかし、現在利用可能な解は通常、ダミーヘッドで測定されるHRTFのみを考慮し、空間音知覚における高い可変性を劣る。
提案手法では,室内インパルス応答(RIR)シミュレータを,空間指向音響フォーマット(SOFA)で表される異なるHRTFセットと統合することができる。
異なるオペレーティングシステム用のソースコードとコンパイル済みバイナリは、高度なユーザと非熟練ユーザの両方がツールボックスから恩恵を受けることができる。
関連論文リスト
- Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms [4.266697413924045]
音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
論文 参考訳(メタデータ) (2024-01-19T19:01:13Z) - Reconstruction of Sound Field through Diffusion Models [15.192190218332843]
室内の音場再構築は、音制御や拡張現実(AR)、仮想現実(VR)など、いくつかのアプリケーションにとって重要な課題である。
室内の音場の大きさを変調周波数域に着目して再構成するデータ駆動生成モデルを提案する。
本研究では,音場(SF-Diff)を拡張領域上に再構築するために訓練された条件付き拡散確率モデル(DDPM)を初めて導入する。
論文 参考訳(メタデータ) (2023-12-14T11:11:26Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation [6.824692201913681]
StoRIRは、機械学習アプリケーションにおける音声データ拡張専用の室内インパルス応答生成手法である。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲のメトリクスにおいて,ディープラーニングモデルによりより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-17T11:56:47Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。