論文の概要: Few-Shot Audio-Visual Learning of Environment Acoustics
- arxiv url: http://arxiv.org/abs/2206.04006v1
- Date: Wed, 8 Jun 2022 16:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:02:17.805352
- Title: Few-Shot Audio-Visual Learning of Environment Acoustics
- Title(参考訳): 環境音響の少数映像学習
- Authors: Sagnik Majumder, Changan Chen, Ziad Al-Halah, Kristen Grauman
- Abstract要約: 室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
- 参考スコア(独自算出の注目度): 89.16560042178523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Room impulse response (RIR) functions capture how the surrounding physical
environment transforms the sounds heard by a listener, with implications for
various applications in AR, VR, and robotics. Whereas traditional methods to
estimate RIRs assume dense geometry and/or sound measurements throughout the
environment, we explore how to infer RIRs based on a sparse set of images and
echoes observed in the space. Towards that goal, we introduce a
transformer-based method that uses self-attention to build a rich acoustic
context, then predicts RIRs of arbitrary query source-receiver locations
through cross-attention. Additionally, we design a novel training objective
that improves the match in the acoustic signature between the RIR predictions
and the targets. In experiments using a state-of-the-art audio-visual simulator
for 3D environments, we demonstrate that our method successfully generates
arbitrary RIRs, outperforming state-of-the-art methods and--in a major
departure from traditional methods--generalizing to novel environments in a
few-shot manner. Project: http://vision.cs.utexas.edu/projects/fs_rir.
- Abstract(参考訳): 室内インパルス応答(RIR)機能は、周囲の物理的環境がリスナーが聴く音をどう変換するかを捉え、AR、VR、ロボット工学における様々な応用に影響を及ぼす。
従来のRIR推定手法では, 環境中の密度幾何学的および/または音響的計測を前提としていたが, 空間で観測された画像とエコーのスパースセットに基づいてRIRを推定する方法を探る。
その目標に向けて,自己認識を用いてリッチな音響コンテキストを構築するトランスフォーマー方式を導入し,クロスアテンションにより任意のクエリソース受信者の位置のIRを予測する。
さらに,RIR予測と目標との音響的シグネチャの一致を改善する新たな学習目標を設計する。
3D環境のための最先端オーディオ視覚シミュレータを用いた実験では,本手法が任意のIRRの生成に成功し,最先端の手法よりも優れ,従来の手法から大きく離れていることを示す。
プロジェクト: http://vision.cs.utexas.edu/projects/fs_rir。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [53.07303460914328]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments [19.413143126734383]
音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。
提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
論文 参考訳(メタデータ) (2021-08-03T02:10:26Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis [0.3587367153279349]
音響環境の単一画像から可聴音インパルス応答を生成するために、エンドツーエンドのニューラルネットワークアーキテクチャを使用します。
多様な設定やフォーマットからもっともらしいインパルス応答を生成することで、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2021-03-26T01:25:58Z) - StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation [6.824692201913681]
StoRIRは、機械学習アプリケーションにおける音声データ拡張専用の室内インパルス応答生成手法である。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲のメトリクスにおいて,ディープラーニングモデルによりより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-17T11:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。