論文の概要: Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2010.11167v1
- Date: Wed, 21 Oct 2020 17:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:09:48.058616
- Title: Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks
- Title(参考訳): 畳み込み型リカレントニューラルネットワークを用いた音声と音楽信号の結合ブラインドルーム音響特性評価
- Authors: Paul Callens, Milos Cernak
- Abstract要約: 残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
- 参考スコア(独自算出の注目度): 13.12834490248018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic environment characterization opens doors for sound reproduction
innovations, smart EQing, speech enhancement, hearing aids, and forensics.
Reverberation time, clarity, and direct-to-reverberant ratio are acoustic
parameters that have been defined to describe reverberant environments. They
are closely related to speech intelligibility and sound quality. As explained
in the ISO3382 standard, they can be derived from a room measurement called the
Room Impulse Response (RIR). However, measuring RIRs requires specific
equipment and intrusive sound to be played. The recent audio combined with
machine learning suggests that one could estimate those parameters blindly
using speech or music signals. We follow these advances and propose a robust
end-to-end method to achieve blind joint acoustic parameter estimation using
speech and/or music signals. Our results indicate that convolutional recurrent
neural networks perform best for this task, and including music in training
also helps improve inference from speech.
- Abstract(参考訳): 音響環境の特徴は、音の再生革新、スマートEQ、音声強調、補聴器、法医学の扉を開く。
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
それらは、音声の知性や音質と密接に関連している。
ISO3382標準で説明されているように、それらはRoom Impulse Response (RIR)と呼ばれる部屋の測定から導かれる。
しかし、RIRの測定には特定の機器と侵入音が要求される。
最近の音声と機械学習の組み合わせは、これらのパラメータを音声や音楽信号を使って視覚的に推定できることを示している。
本稿では,音声や音楽信号を用いたブラインド関節音響パラメータ推定を実現するためのロバストなエンドツーエンド手法を提案する。
以上の結果から,畳み込み型リカレントニューラルネットワークは,この課題に最適であり,学習中の音楽を含めることで,音声からの推論を改善することができることがわかった。
関連論文リスト
- Explaining Deep Learning Embeddings for Speech Emotion Recognition by Predicting Interpretable Acoustic Features [5.678610585849838]
事前学習されたディープラーニング埋め込みは、音声感情認識において手作り音響特性よりも優れた性能を示している。
明瞭な物理的意味を持つ音響的特徴とは異なり、これらの埋め込みは明確な解釈可能性を持たない。
本稿では,音声の感情空間における深層学習の埋め込みを説明するための改良型探索手法を提案する。
論文 参考訳(メタデータ) (2024-09-14T19:18:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification [8.90841350214225]
本稿では,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。
音声と音響応答を同時に埋め込むために、コントラッシブ・ロス・エンコーダ関数を用いる。
テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
論文 参考訳(メタデータ) (2024-06-05T10:13:55Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。