論文の概要: HRTF Estimation using a Score-based Prior
- arxiv url: http://arxiv.org/abs/2410.01562v1
- Date: Wed, 2 Oct 2024 14:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:04:38.412170
- Title: HRTF Estimation using a Score-based Prior
- Title(参考訳): Score-based Prior を用いたHRTF推定
- Authors: Etienne Thuillier, Jean-Marie Lemercier, Eloi Moliner, Timo Gerkmann, Vesa Välimäki,
- Abstract要約: 本稿では,スコアベース拡散モデルに基づく頭部伝達関数推定手法を提案する。
HRTFは人間の発話などの自然な励起信号を用いて残響環境で推定される。
HRTFにおける高周波コンテンツの大きなばらつきを,拡散前の拡散が考慮できることを示す。
- 参考スコア(独自算出の注目度): 20.62078965099636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a head-related transfer function (HRTF) estimation method which relies on a data-driven prior given by a score-based diffusion model. The HRTF is estimated in reverberant environments using natural excitation signals, e.g. human speech. The impulse response of the room is estimated along with the HRTF by optimizing a parametric model of reverberation based on the statistical behaviour of room acoustics. The posterior distribution of HRTF given the reverberant measurement and excitation signal is modelled using the score-based HRTF prior and a log-likelihood approximation. We show that the resulting method outperforms several baselines, including an oracle recommender system that assigns the optimal HRTF in our training set based on the smallest distance to the true HRTF at the given direction of arrival. In particular, we show that the diffusion prior can account for the large variability of high-frequency content in HRTFs.
- Abstract(参考訳): 本稿では、スコアベース拡散モデルによって与えられるデータ駆動の事前情報に依存する頭部伝達関数(HRTF)の推定手法を提案する。
HRTFは自然励起信号、例えば人間の発話を用いて残響環境で推定される。
室内音響の統計的挙動に基づいて、残響のパラメトリックモデルを最適化することにより、部屋のインパルス応答をHRTFとともに推定する。
残響測定および励起信号が与えられたHRTFの後部分布は、スコアベースHRTFの前とログ様近似を用いてモデル化する。
提案手法は,最短距離に基づいてトレーニングセットに最適なHRTFを割り当てるオラクルレコメンデータシステムを含む,いくつかのベースラインよりも優れていることを示す。
特に, HRTFにおける高周波コンテンツの大きなばらつきを, 拡散先行が考慮できることを示す。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Deep adaptative spectral zoom for improved remote heart rate estimation [10.220888127527152]
Chirp-Z Transform (CZT) は、心拍数に対する狭帯域の利息の範囲までスペクトルを洗練させ、頻繁な分解能を改善し、その結果より正確な推定を可能にする。
本稿では、リモートHR推定にCZTを用いる利点を示し、新しいデータ駆動適応型CZT推定器を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:55:19Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Supervised Contrastive Learning based Dual-Mixer Model for Remaining
Useful Life Prediction [3.081898819471624]
Remaining Useful Life (RUL)予測は、現在の予測モーメントからデバイスの完全な障害までの残時間を正確に見積もることを目的としている。
従来のRUL予測手法における時間的特徴と空間的特徴の厳密結合の欠点を克服するため,Dual-Mixerモデルと呼ばれる空間的時間的特徴抽出器を提案する。
提案手法の有効性は,C-MAPSSデータセットに関する他の最新の研究結果との比較により検証した。
論文 参考訳(メタデータ) (2024-01-29T14:38:44Z) - HRTF Interpolation using a Spherical Neural Process Meta-Learner [1.3505077405741583]
本稿では,HRTF誤り訂正に特化した畳み込みニューラルプロセスメタラーナを提案する。
一般集団平均HRTFは、補正の前に最初の推定値を形成する。
トレーニングされたモデルは、最先端の手法と比較して最大3dBの相対誤差削減を達成する。
論文 参考訳(メタデータ) (2023-10-20T11:41:54Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - HRTF upsampling with a generative adversarial network using a gnomonic
equiangular projection [3.921666645870036]
本稿では、HRTFアップサンプリングにGAN(Generative Adversarial Network)を適用する方法について述べる。
畳み込み型超解像生成対向ネットワーク(SRGAN)を用いてHRTFデータを直接利用するための新しい手法を提案する。
実験の結果, 提案手法は, 対数スペクトル歪み(LSD)と局所化性能において, 3つの基準線すべてより優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:05:09Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。