論文の概要: Neural personal sound zones with flexible bright zone control
- arxiv url: http://arxiv.org/abs/2512.10375v1
- Date: Thu, 11 Dec 2025 07:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.252522
- Title: Neural personal sound zones with flexible bright zone control
- Title(参考訳): フレキシブル・ライトゾーン制御によるニューラル・パーソナル・サウンドゾーン
- Authors: Wenye Zhu, Jun Tang, Xiaofei Li,
- Abstract要約: パーソナルサウンドゾーン(PSZ)再生システムは,仮想現実の応用における基礎技術である。
実用化のためには、各PSZの制御点へのスピーカアレイから局所室インパルス応答(RIR)を記録するのに使用される同じ固定受信器アレイ上で再構成ターゲットを測定する必要がある。
本稿では,PSZ再生のための3次元畳み込みニューラルネットワーク(CNN)について述べる。
- 参考スコア(独自算出の注目度): 9.433651958025072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal sound zone (PSZ) reproduction system, which attempts to create distinct virtual acoustic scenes for different listeners at their respective positions within the same spatial area using one loudspeaker array, is a fundamental technology in the application of virtual reality. For practical applications, the reconstruction targets must be measured on the same fixed receiver array used to record the local room impulse responses (RIRs) from the loudspeaker array to the control points in each PSZ, which makes the system inconvenient and costly for real-world use. In this paper, a 3D convolutional neural network (CNN) designed for PSZ reproduction with flexible control microphone grid and alternative reproduction target is presented, utilizing the virtual target scene as inputs and the PSZ pre-filters as output. Experimental results of the proposed method are compared with the traditional method, demonstrating that the proposed method is able to handle varied reproduction targets on flexible control point grid using only one training session. Furthermore, the proposed method also demonstrates the capability to learn global spatial information from sparse sampling points distributed in PSZs.
- Abstract(参考訳): 1つのスピーカアレイを用いて、同じ空間領域内のそれぞれの位置にある異なるリスナーに対して異なる仮想音響シーンを創り出そうとするパーソナルサウンドゾーン(PSZ)再生システムは、バーチャルリアリティーの応用における基本的な技術である。
実用的な用途では、リコンストラクションターゲットは、スピーカーアレイから各PSZの制御点までのローカルルームインパルス応答(RIR)を記録するのに使用される同じ固定受信器アレイ上で測定されなければならない。
本稿では,PSZ再生のための3次元畳み込みニューラルネットワーク(CNN)について述べる。
提案手法は, フレキシブル・コントロール・ポイント・グリッド上で, 1つのトレーニング・セッションのみを用いて, 様々な再生目標を処理できることを実証し, 従来の手法と比較した。
さらに,PSZに分散したスパースサンプリングポイントからグローバル空間情報を学習する能力も示す。
関連論文リスト
- Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers [3.5522191686718725]
信号マッチングにおけるフィールド・オブ・ビュー・エンハンスメントのための新しい専門家フレームワークを提案する。
提案手法は, 連続した話者の動きに適応し, ユーザが選択した方向からの音声を強調・抑制できる動的空間音響レンダリングを実現する。
これにより、移動音源のリアルタイム追跡と強化が可能になり、音声フォーカス、ノイズ低減、拡張現実および仮想現実におけるワールドロックされたオーディオなどのアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-09-16T21:30:06Z) - Beamformed 360° Sound Maps: U-Net-Driven Acoustic Source Segmentation and Localization [0.10485739694839666]
球状セマンティックセグメンテーションタスクとして定式化された360deg音響音源定位のためのU-netモデルを提案する。
私たちのデータセットには、DJI Air 3ドローンの実際のオープンフィールド記録が含まれています。
論文 参考訳(メタデータ) (2025-08-01T04:23:18Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Passive Radio Frequency-based 3D Indoor Positioning System via Ensemble
Learning [13.542762811970732]
PRFを用いた3次元屋内位置決めシステム(PIPS)を提案する。
PIPSは1つの受信機を通してシナリオシグネチャを含む機会信号(SoOP)を受動的にモニタする。
3つのアンサンブル学習戦略内の様々な回帰手法を用いて、受信者の位置を訓練し予測する。
論文 参考訳(メタデータ) (2023-03-25T21:13:00Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。