Fugu-MT 論文翻訳(概要): ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling

論文の概要: ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling

arxiv url: http://arxiv.org/abs/2404.16216v1
Date: Wed, 24 Apr 2024 21:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 15:27:26.428897
Title: ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling
Title（参考訳）: ActiveRIR:音響環境モデリングのためのアクティブオーディオ-ビジュアル探索
Authors: Arjun Somayazulu, Sagnik Majumder, Changan Chen, Kristen Grauman,
Abstract要約: 環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
参考スコア（独自算出の注目度）: 57.1025908604556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An environment acoustic model represents how sound is transformed by the physical characteristics of an indoor environment, for any given source/receiver location. Traditional methods for constructing acoustic models involve expensive and time-consuming collection of large quantities of acoustic data at dense spatial locations in the space, or rely on privileged knowledge of scene geometry to intelligently select acoustic data sampling locations. We propose active acoustic sampling, a new task for efficiently building an environment acoustic model of an unmapped environment in which a mobile agent equipped with visual and acoustic sensors jointly constructs the environment acoustic model and the occupancy map on-the-fly. We introduce ActiveRIR, a reinforcement learning (RL) policy that leverages information from audio-visual sensor streams to guide agent navigation and determine optimal acoustic data sampling positions, yielding a high quality acoustic model of the environment from a minimal set of acoustic samples. We train our policy with a novel RL reward based on information gain in the environment acoustic model. Evaluating on diverse unseen indoor environments from a state-of-the-art acoustic simulation platform, ActiveRIR outperforms an array of methods--both traditional navigation agents based on spatial novelty and visual exploration as well as existing state-of-the-art methods.
Abstract（参考訳）: 環境音響モデルは、任意の音源/受信者の位置について、室内環境の物理的特性によって音がどのように変換されるかを表す。従来の音響モデル構築の方法は、空間の密集した場所にある大量の音響データの高価で時間を要する収集や、音響データサンプリングの場所をインテリジェントに選択するためのシーン幾何学の特権的な知識に依存している。本研究では,視覚・音響センサを備えた移動体エージェントが,環境音響モデルと占有マップを同時に構築する,無人環境の環境音響モデルを構築するための新しいタスクである能動的音響サンプリングを提案する。音声・視覚センサストリームからの情報を活用してエージェントナビゲーションを誘導し、最適な音響データサンプリング位置を判定する強化学習(RL)ポリシーであるActiveRIRを導入し、最小限の音響サンプルから環境の高品質な音響モデルを生成する。環境音響モデルにおける情報ゲインに基づく新しいRL報酬で政策を訓練する。 ActiveRIRは、最先端の音響シミュレーションプラットフォームから、さまざまな目に見えない屋内環境の評価を行い、従来のナビゲーションエージェントと既存の最先端の手法の両方を性能評価する。

関連論文リスト

Hearing Anywhere in Any Environment [33.566252963174556]
本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
論文参考訳（メタデータ） (2025-04-14T22:37:52Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Neural Acoustic Context Field: Rendering Realistic Room Impulse Response With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。 RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文参考訳（メタデータ） (2023-09-27T19:50:50Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。 3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文参考訳（メタデータ） (2022-06-08T16:38:24Z)
Environment Transfer for Distributed Systems [5.8010446129208155]
本論文では,音声データ間の音響的風合いの伝達に用いる手法を拡張する手法を提案する。分散音響データ拡張のための環境間で音声シグネチャを転送する。本稿では,生成した音響データを分類精度と内容保存に基づいて評価する指標を考案する。
論文参考訳（メタデータ） (2021-01-06T04:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。