論文の概要: Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information
- arxiv url: http://arxiv.org/abs/2409.14971v1
- Date: Mon, 23 Sep 2024 12:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:15:39.761167
- Title: Blind Spatial Impulse Response Generation from Separate Room- and Scene-Specific Information
- Title(参考訳): 別室・シーン情報からのブラインド空間インパルス応答生成
- Authors: Francesc Lluís, Nils Meyer-Kahlen,
- Abstract要約: ユーザの実際の音響環境に関する知識は,環境にシームレスに溶け込む仮想音のレンダリングに不可欠である。
最終出力において,室内パラメータと位置パラメータの両方がどう考慮されるかを示す。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For audio in augmented reality (AR), knowledge of the users' real acoustic environment is crucial for rendering virtual sounds that seamlessly blend into the environment. As acoustic measurements are usually not feasible in practical AR applications, information about the room needs to be inferred from available sound sources. Then, additional sound sources can be rendered with the same room acoustic qualities. Crucially, these are placed at different positions than the sources available for estimation. Here, we propose to use an encoder network trained using a contrastive loss that maps input sounds to a low-dimensional feature space representing only room-specific information. Then, a diffusion-based spatial room impulse response generator is trained to take the latent space and generate a new response, given a new source-receiver position. We show how both room- and position-specific parameters are considered in the final output.
- Abstract(参考訳): 拡張現実(AR)におけるオーディオにとって、ユーザの実際の音響環境に関する知識は、環境にシームレスに溶け込む仮想音のレンダリングに不可欠である。
実用的なARアプリケーションでは音響測定は不可能であるため、利用可能な音源から部屋に関する情報を推測する必要がある。
そして、同じ室内音響特性で追加の音源を描画することができる。
重要な点として、これらは推定に利用可能なソースとは異なる位置に配置されている。
本稿では,室内情報のみを表す低次元特徴空間に入力音をマッピングするコントラスト損失を用いたエンコーダネットワークを提案する。
そして、拡散型空間室インパルス応答発生器を訓練し、新しいソース受信者位置が与えられた場合、潜伏空間を取り込み、新しい応答を生成する。
最終出力において,室内パラメータと位置パラメータの両方がどう考慮されるかを示す。
関連論文リスト
- ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field [39.19609821736598]
SPEARは、空間音響効果予測のための連続受信機から受信機への音響ニューラルワーピングフィールドである。
合成, フォトリアリスティック, 実世界の両方のデータセットにSPEARの優位性を示す。
論文 参考訳(メタデータ) (2024-06-16T16:40:26Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification [8.90841350214225]
本稿では,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。
音声と音響応答を同時に埋め込むために、コントラッシブ・ロス・エンコーダ関数を用いる。
テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
論文 参考訳(メタデータ) (2024-06-05T10:13:55Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文 参考訳(メタデータ) (2021-02-12T11:34:18Z) - Joint Blind Room Acoustic Characterization From Speech And Music Signals
Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。
最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。
音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。