論文の概要: Few-Shot Audio-Visual Learning of Environment Acoustics
- arxiv url: http://arxiv.org/abs/2206.04006v1
- Date: Wed, 8 Jun 2022 16:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:02:17.805352
- Title: Few-Shot Audio-Visual Learning of Environment Acoustics
- Title(参考訳): 環境音響の少数映像学習
- Authors: Sagnik Majumder, Changan Chen, Ziad Al-Halah, Kristen Grauman
- Abstract要約: 室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
- 参考スコア(独自算出の注目度): 89.16560042178523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Room impulse response (RIR) functions capture how the surrounding physical
environment transforms the sounds heard by a listener, with implications for
various applications in AR, VR, and robotics. Whereas traditional methods to
estimate RIRs assume dense geometry and/or sound measurements throughout the
environment, we explore how to infer RIRs based on a sparse set of images and
echoes observed in the space. Towards that goal, we introduce a
transformer-based method that uses self-attention to build a rich acoustic
context, then predicts RIRs of arbitrary query source-receiver locations
through cross-attention. Additionally, we design a novel training objective
that improves the match in the acoustic signature between the RIR predictions
and the targets. In experiments using a state-of-the-art audio-visual simulator
for 3D environments, we demonstrate that our method successfully generates
arbitrary RIRs, outperforming state-of-the-art methods and--in a major
departure from traditional methods--generalizing to novel environments in a
few-shot manner. Project: http://vision.cs.utexas.edu/projects/fs_rir.
- Abstract(参考訳): 室内インパルス応答(RIR)機能は、周囲の物理的環境がリスナーが聴く音をどう変換するかを捉え、AR、VR、ロボット工学における様々な応用に影響を及ぼす。
従来のRIR推定手法では, 環境中の密度幾何学的および/または音響的計測を前提としていたが, 空間で観測された画像とエコーのスパースセットに基づいてRIRを推定する方法を探る。
その目標に向けて,自己認識を用いてリッチな音響コンテキストを構築するトランスフォーマー方式を導入し,クロスアテンションにより任意のクエリソース受信者の位置のIRを予測する。
さらに,RIR予測と目標との音響的シグネチャの一致を改善する新たな学習目標を設計する。
3D環境のための最先端オーディオ視覚シミュレータを用いた実験では,本手法が任意のIRRの生成に成功し,最先端の手法よりも優れ,従来の手法から大きく離れていることを示す。
プロジェクト: http://vision.cs.utexas.edu/projects/fs_rir。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。