論文の概要: AV-RIR: Audio-Visual Room Impulse Response Estimation
- arxiv url: http://arxiv.org/abs/2312.00834v2
- Date: Tue, 23 Apr 2024 19:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 16:25:00.307696
- Title: AV-RIR: Audio-Visual Room Impulse Response Estimation
- Title(参考訳): AV-RIR:音響視覚室インパルス応答推定
- Authors: Anton Ratnarajah, Sreyan Ghosh, Sonal Kumar, Purva Chiniya, Dinesh Manocha,
- Abstract要約: 室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
- 参考スコア(独自算出の注目度): 49.469389715876915
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate estimation of Room Impulse Response (RIR), which captures an environment's acoustic properties, is important for speech processing and AR/VR applications. We propose AV-RIR, a novel multi-modal multi-task learning approach to accurately estimate the RIR from a given reverberant speech signal and the visual cues of its corresponding environment. AV-RIR builds on a novel neural codec-based architecture that effectively captures environment geometry and materials properties and solves speech dereverberation as an auxiliary task by using multi-task learning. We also propose Geo-Mat features that augment material information into visual cues and CRIP that improves late reverberation components in the estimated RIR via image-to-RIR retrieval by 86%. Empirical results show that AV-RIR quantitatively outperforms previous audio-only and visual-only approaches by achieving 36% - 63% improvement across various acoustic metrics in RIR estimation. Additionally, it also achieves higher preference scores in human evaluation. As an auxiliary benefit, dereverbed speech from AV-RIR shows competitive performance with the state-of-the-art in various spoken language processing tasks and outperforms reverberation time error score in the real-world AVSpeech dataset. Qualitative examples of both synthesized reverberant speech and enhanced speech can be found at https://www.youtube.com/watch?v=tTsKhviukAE.
- Abstract(参考訳): 環境の音響特性を捉えた室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
AV-RIRは、環境の幾何学や材料特性を効果的に捉え、マルチタスク学習を用いて音声の残響を補助的なタスクとして解決する、新しいニューラルコーデックベースのアーキテクチャの上に構築されている。
また,画像からRIRの検索によって推定されたRIRの残響成分を86%改善するビジュアルキューとCRIPに素材情報を付加するGeo-Mat機能を提案する。
AV-RIRは、RIR推定における様々な音響指標の36%から63%の改善によって、従来の音声のみのアプローチと視覚のみのアプローチを定量的に上回ることを示す。
また、人間の評価において高い嗜好スコアを得る。
補助的な利点として、AV-RIRから派生した音声は、様々な音声言語処理タスクにおける最先端技術との競合性能を示し、実世界のAVSpeechデータセットにおける残響時間誤差スコアよりも優れていた。
合成残響音声と拡張音声の質的な例はhttps://www.youtube.com/watch?
v=tTsKhviukAE。
関連論文リスト
- RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained
ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。
本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-03-31T13:32:51Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。