論文の概要: SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation
- arxiv url: http://arxiv.org/abs/2106.12992v1
- Date: Thu, 24 Jun 2021 13:07:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 21:19:17.939967
- Title: SofaMyRoom: a fast and multiplatform "shoebox" room simulator for
binaural room impulse response dataset generation
- Title(参考訳): sofamyroom:バイノーラルルームインパルス応答データセット生成のための高速でマルチプラットフォームな"shoebox"ルームシミュレータ
- Authors: Roberto Barumerli, Daniele Bianchi, Michele Geronazzo, Federico
Avanzini
- Abstract要約: 本稿では,任意の頭部伝達関数(HRTF)のセットが与えられると,室内インパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a shoebox room simulator able to systematically
generate synthetic datasets of binaural room impulse responses (BRIRs) given an
arbitrary set of head-related transfer functions (HRTFs). The evaluation of
machine hearing algorithms frequently requires BRIR datasets in order to
simulate the acoustics of any environment. However, currently available
solutions typically consider only HRTFs measured on dummy heads, which poorly
characterize the high variability in spatial sound perception. Our solution
allows to integrate a room impulse response (RIR) simulator with different HRTF
sets represented in Spatially Oriented Format for Acoustics (SOFA). The source
code and the compiled binaries for different operating systems allow to both
advanced and non-expert users to benefit from our toolbox, see
https://github.com/spatialaudiotools/sofamyroom/ .
- Abstract(参考訳): 本稿では,任意の頭部伝達関数(HRTF)を与えられたバイノーラルルームインパルス応答(BRIR)の合成データセットを体系的に生成できる靴箱シミュレータを提案する。
機械補聴アルゴリズムの評価は、任意の環境の音響をシミュレートするために、BRIRデータセットを必要とすることが多い。
しかし、現在利用可能な解は通常、ダミーヘッドで測定されるHRTFのみを考慮し、空間音知覚における高い可変性を劣る。
提案手法では,室内インパルス応答(RIR)シミュレータを,空間指向音響フォーマット(SOFA)で表される異なるHRTFセットと統合することができる。
異なるオペレーティングシステム用のソースコードとコンパイル済みバイナリは、高度なユーザと非熟練ユーザの両方がツールボックスから恩恵を受けることができる。
関連論文リスト
- HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information [0.42970700836450487]
ユーザの実際の音響環境に関する知識は,環境にシームレスに溶け込む仮想音のレンダリングに不可欠である。
最終出力において,室内パラメータと位置パラメータの両方がどう考慮されるかを示す。
論文 参考訳(メタデータ) (2024-09-23T12:41:31Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound
Event Localization and Detection in Realistic Rooms [4.266697413924045]
音事象の局所化と検出(SELD)は、機械聴取において重要な課題である。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
論文 参考訳(メタデータ) (2024-01-19T19:01:13Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。