論文の概要: Gaussian Process Regression of Steering Vectors With Physics-Aware Deep Composite Kernels for Augmented Listening
- arxiv url: http://arxiv.org/abs/2509.02571v1
- Date: Wed, 20 Aug 2025 09:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.282164
- Title: Gaussian Process Regression of Steering Vectors With Physics-Aware Deep Composite Kernels for Augmented Listening
- Title(参考訳): 拡張聴取用物理対応ディープコンポジットカーネルを用いたステアリングベクトルのガウス過程の回帰
- Authors: Diego Di Carlo, Koyama Shoichi, Nugraha Aditya Arie, Fontaine Mathieu, Bando Yoshiaki, Yoshii Kazuyoshi,
- Abstract要約: 本稿では、マイクロホンの周波数と位置に対するステアリングベクトルの連続表現と拡張リスニングのための音源について検討する。
指向性波動とそれに続く散乱効果をモデル化した物理対応複合カーネルを提案する。
- 参考スコア(独自算出の注目度): 0.7778724782015985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates continuous representations of steering vectors over frequency and position of microphone and source for augmented listening (e.g., spatial filtering and binaural rendering) with precise control of the sound field perceived by the user. Steering vectors have typically been used for representing the spatial characteristics of the sound field as a function of the listening position. The basic algebraic representation of steering vectors assuming an idealized environment cannot deal with the scattering effect of the sound field. One may thus collect a discrete set of real steering vectors measured in dedicated facilities and super-resolve (i.e., upsample) them. Recently, physics-aware deep learning methods have been effectively used for this purpose. Such deterministic super-resolution, however, suffers from the overfitting problem due to the non-uniform uncertainty over the measurement space. To solve this problem, we integrate an expressive representation based on the neural field (NF) into the principled probabilistic framework based on the Gaussian process (GP). Specifically, we propose a physics-aware composite kernel that model the directional incoming waves and the subsequent scattering effect. Our comprehensive comparative experiment showed the effectiveness of the proposed method under data insufficiency conditions. In downstream tasks such as speech enhancement and binaural rendering using the simulated data of the SPEAR challenge, the oracle performances were attained with less than ten times fewer measurements.
- Abstract(参考訳): 本稿では、マイクロホンの周波数と位置に対するステアリングベクトルの連続表現と、ユーザが知覚する音場を正確に制御した拡張リスニング(例えば、空間フィルタリング、バイノーラルレンダリング)のための音源について検討する。
ステアリングベクトルは典型的には、聴取位置の関数として音場の空間的特性を表すために用いられる。
理想的な環境を仮定するステアリングベクトルの基本的な代数的表現は、音場の散乱効果に対処できない。
したがって、専用の施設で測定された実ステアリングベクトルの離散的な集合を収集し、それらを超解(すなわちアップサンプル)することができる。
近年,物理を意識した深層学習手法が実用化されている。
しかし、そのような決定論的超分解能は、測定空間上の一様でない不確実性のために過度に適合する問題に悩まされる。
この問題を解決するために,ニューラルフィールド(NF)に基づく表現表現をガウス過程(GP)に基づく原理的確率的フレームワークに統合する。
具体的には、指向性波動とそれに続く散乱効果をモデル化した物理対応複合カーネルを提案する。
総合的な比較実験により,データ不足条件下での提案手法の有効性が示された。
SPEAR課題のシミュレーションデータを用いた音声強調やバイノーラルレンダリングなどの下流タスクでは、オラクルのパフォーマンスは10倍未満で達成された。
関連論文リスト
- Self-Steering Deep Non-Linear Spatially Selective Filters for Efficient Extraction of Moving Speakers under Weak Guidance [14.16697537117357]
代わりに粒子フィルタの形で低複雑さ追跡アルゴリズムを利用する新しい手法を提案する。
両アルゴリズムの自己回帰的相互作用が追跡精度を大幅に向上し,高い性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-03T16:54:56Z) - Collaborative Edge AI Inference over Cloud-RAN [37.3710464868215]
クラウド無線アクセスネットワーク(Cloud-RAN)ベースの協調エッジAI推論アーキテクチャを提案する。
具体的には、地理的に分散したデバイスが、リアルタイムのノイズ破壊センサデータサンプルをキャプチャし、ノイズの多い局所特徴ベクトルを抽出する。
我々は,各RRHが同一リソースブロック上の全デバイスから局所的特徴ベクトルを同時に受信することを可能にする。
これらの集約された特徴ベクトルは量子化され、さらに集約および下流推論タスクのために中央プロセッサに送信される。
論文 参考訳(メタデータ) (2024-04-09T04:26:16Z) - ELUQuant: Event-Level Uncertainty Quantification in Deep Inelastic
Scattering [0.0]
物理事象レベルでの詳細な不確実性定量化(UQ)のための流れを近似した物理インフォームドベイズニューラルネットワーク(BNN)を提案する。
Deep Inelastic Scattering (DIS) イベントに適用すると、我々のモデルはキネティック変数 $x$, $Q2$, $y$ を効果的に抽出する。
根底にある不確実性に関するこの詳細な説明は、特にイベントフィルタリングのようなタスクにおいて、意思決定には重要でないことを証明している。
論文 参考訳(メタデータ) (2023-10-04T15:50:05Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Score-based Diffusion Models in Function Space [137.70916238028306]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
この研究は、関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)と呼ばれる数学的に厳密なフレームワークを導入する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。