Fugu-MT 論文翻訳(概要): Few-Shot Audio-Visual Learning of Environment Acoustics

論文の概要: Few-Shot Audio-Visual Learning of Environment Acoustics

arxiv url: http://arxiv.org/abs/2206.04006v1
Date: Wed, 8 Jun 2022 16:38:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-09 14:02:17.805352
Title: Few-Shot Audio-Visual Learning of Environment Acoustics
Title（参考訳）: 環境音響の少数映像学習
Authors: Sagnik Majumder, Changan Chen, Ziad Al-Halah, Kristen Grauman
Abstract要約: 室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
参考スコア（独自算出の注目度）: 89.16560042178523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Room impulse response (RIR) functions capture how the surrounding physical environment transforms the sounds heard by a listener, with implications for various applications in AR, VR, and robotics. Whereas traditional methods to estimate RIRs assume dense geometry and/or sound measurements throughout the environment, we explore how to infer RIRs based on a sparse set of images and echoes observed in the space. Towards that goal, we introduce a transformer-based method that uses self-attention to build a rich acoustic context, then predicts RIRs of arbitrary query source-receiver locations through cross-attention. Additionally, we design a novel training objective that improves the match in the acoustic signature between the RIR predictions and the targets. In experiments using a state-of-the-art audio-visual simulator for 3D environments, we demonstrate that our method successfully generates arbitrary RIRs, outperforming state-of-the-art methods and--in a major departure from traditional methods--generalizing to novel environments in a few-shot manner. Project: http://vision.cs.utexas.edu/projects/fs_rir.
Abstract（参考訳）: 室内インパルス応答(RIR)機能は、周囲の物理的環境がリスナーが聴く音をどう変換するかを捉え、AR、VR、ロボット工学における様々な応用に影響を及ぼす。従来のRIR推定手法では, 環境中の密度幾何学的および/または音響的計測を前提としていたが, 空間で観測された画像とエコーのスパースセットに基づいてRIRを推定する方法を探る。その目標に向けて,自己認識を用いてリッチな音響コンテキストを構築するトランスフォーマー方式を導入し,クロスアテンションにより任意のクエリソース受信者の位置のIRを予測する。さらに,RIR予測と目標との音響的シグネチャの一致を改善する新たな学習目標を設計する。 3D環境のための最先端オーディオ視覚シミュレータを用いた実験では,本手法が任意のIRRの生成に成功し,最先端の手法よりも優れ,従来の手法から大きく離れていることを示す。プロジェクト: http://vision.cs.utexas.edu/projects/fs_rir。

関連論文リスト

Hearing Anywhere in Any Environment [33.566252963174556]
本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
論文参考訳（メタデータ） (2025-04-14T22:37:52Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-11T17:56:14Z)
ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文参考訳（メタデータ） (2024-04-24T21:30:01Z)
AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文参考訳（メタデータ） (2023-11-30T22:58:30Z)
RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。 RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文参考訳（メタデータ） (2023-10-31T20:42:08Z)
Neural Acoustic Context Field: Rendering Realistic Room Impulse Response With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。 RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文参考訳（メタデータ） (2023-09-27T19:50:50Z)
Synthetic Wave-Geometric Impulse Responses for Improved Speech Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文参考訳（メタデータ） (2022-12-10T20:15:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。