論文の概要: How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
- arxiv url: http://arxiv.org/abs/2508.02905v1
- Date: Mon, 04 Aug 2025 21:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.684485
- Title: How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation for Indoor Scenes
- Title(参考訳): 音はどのように聞こえるか? 屋内シーンのための材料制御型マルチモーダル音響プロファイル生成
- Authors: Mahnoor Fatima Saad, Ziad Al-Halah,
- Abstract要約: 材料制御音響プロファイル生成の課題について紹介する。
目標は,ユーザ定義の材料構成に基づいて,推定時にターゲット音響プロファイルを生成することである。
本課題は,映像観察からシーンのキー特性を符号化する,新しいエンコーダ・デコーダアプローチを用いて解決する。
提案手法は材料情報を効果的に符号化し,高忠実度RIRを生成する。
- 参考スコア(独自算出の注目度): 16.57879794516524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How would the sound in a studio change with a carpeted floor and acoustic tiles on the walls? We introduce the task of material-controlled acoustic profile generation, where, given an indoor scene with specific audio-visual characteristics, the goal is to generate a target acoustic profile based on a user-defined material configuration at inference time. We address this task with a novel encoder-decoder approach that encodes the scene's key properties from an audio-visual observation and generates the target Room Impulse Response (RIR) conditioned on the material specifications provided by the user. Our model enables the generation of diverse RIRs based on various material configurations defined dynamically at inference time. To support this task, we create a new benchmark, the Acoustic Wonderland Dataset, designed for developing and evaluating material-aware RIR prediction methods under diverse and challenging settings. Our results demonstrate that the proposed model effectively encodes material information and generates high-fidelity RIRs, outperforming several baselines and state-of-the-art methods.
- Abstract(参考訳): スタジオの音は、カーペット敷きの床と壁のアコースティックタイルでどのように変化するのか?
そこで本研究では,室内の特定の音響・視覚的特徴を持つシーンを前提として,ユーザ定義の音源構成に基づいて,対象の音響プロファイルを生成することを目的とする音響プロファイル生成の課題について紹介する。
本稿では,映像観察からシーンのキー特性を符号化するエンコーダ・デコーダ手法を用いて,ユーザが提供する材料仕様に基づいて,ターゲットのRoom Impulse Response(RIR)を生成する。
提案モデルは, 推論時に動的に定義された様々な材料構成に基づいて, 多様なRIRの生成を可能にする。
この課題を支援するために,多種多様かつ困難な環境下での物質認識RIR予測手法の開発と評価を目的とした,新しいベンチマークであるAustralian Wonderland Datasetを作成する。
提案手法は,材料情報を効果的に符号化し,高忠実度IRRを生成し,いくつかのベースラインや最先端手法より優れていることを示す。
関連論文リスト
- Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文 参考訳(メタデータ) (2025-02-10T16:51:11Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。