論文の概要: StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation
- arxiv url: http://arxiv.org/abs/2008.07231v1
- Date: Mon, 17 Aug 2020 11:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 04:38:03.702087
- Title: StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation
- Title(参考訳): StoRIR:音声データ拡張のための確率室インパルス応答生成
- Authors: Piotr Masztalski, Mateusz Matuszewski, Karol Piaskowski, Micha{\l}
Romaniuk
- Abstract要約: StoRIRは、機械学習アプリケーションにおける音声データ拡張専用の室内インパルス応答生成手法である。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲のメトリクスにおいて,ディープラーニングモデルによりより良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 6.824692201913681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce StoRIR - a stochastic room impulse response
generation method dedicated to audio data augmentation in machine learning
applications. This technique, in contrary to geometrical methods like
image-source or ray tracing, does not require prior definition of room
geometry, absorption coefficients or microphone and source placement and is
dependent solely on the acoustic parameters of the room. The method is
intuitive, easy to implement and allows to generate RIRs of very complicated
enclosures. We show that StoRIR, when used for audio data augmentation in a
speech enhancement task, allows deep learning models to achieve better results
on a wide range of metrics than when using the conventional image-source
method, effectively improving many of them by more than 5 %. We publish a
Python implementation of StoRIR online
- Abstract(参考訳): 本稿では,機械学習アプリケーションにおける音声データ拡張専用の確率室インパルス応答生成手法であるStoRIRを紹介する。
この手法は、画像ソースやレイトレーシングのような幾何学的手法とは対照的に、部屋の幾何学、吸収係数、マイクロホン、音源配置の事前定義を必要とせず、部屋の音響パラメータにのみ依存する。
この方法は直感的で実装が容易で、非常に複雑な囲いを持つIRを生成することができる。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲において,ディープラーニングモデルによりより優れた結果が得られ,その多くを5%以上効果的に改善できることを示す。
我々はStoRIRのPython実装をオンラインで公開する
関連論文リスト
- Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis [88.86777314004044]
我々は,X線ノベルビュー可視化のための3次元ガウシアンスプラッティングに基づくフレームワーク,すなわちX-ガウシアンを提案する。
実験の結果,X-Gaussianは6.5dBの最先端手法より優れており,トレーニング時間は15%未満であり,推論速度は73倍であることがわかった。
論文 参考訳(メタデータ) (2024-03-07T00:12:08Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - A Model Compression Method with Matrix Product Operators for Speech
Enhancement [15.066942043773267]
本稿では,行列積演算子(MPO)に基づくモデル圧縮手法を提案する。
本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-10-10T08:53:25Z) - DDSP: Differentiable Digital Signal Processing [13.448630251745163]
本稿では,従来の信号処理要素を深層学習手法と直接統合できるDDSPライブラリについて紹介する。
我々は、大規模な自己回帰モデルや敵の損失を必要とせずに、高忠実度生成を実現する。
Pは、ディープラーニングの利点を犠牲にすることなく、生成モデリングに対する解釈可能でモジュラーなアプローチを可能にします。
論文 参考訳(メタデータ) (2020-01-14T06:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。