論文の概要: A Machine Learning Approach for Denoising and Upsampling HRTFs
- arxiv url: http://arxiv.org/abs/2504.17586v1
- Date: Thu, 24 Apr 2025 14:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.403151
- Title: A Machine Learning Approach for Denoising and Upsampling HRTFs
- Title(参考訳): HRTFのDenoising and Upsamplingのための機械学習アプローチ
- Authors: Xuyi Hu, Jian Li, Lorenzo Picinali, Aidan O. T. Hogg,
- Abstract要約: 頭部伝達関数(HRTF)は、音が耳に届く様子を捉え、ユニークな解剖学的特徴を反映し、空間的知覚を高める。
パーソナライズされたHRTFは、ローカライズ精度を向上させることが示されているが、その測定には時間を要するため、ノイズのない環境が必要である。
本稿では,この制約に対処する手法を提案する。
提案手法は,5.41dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を実現し,HRTFアップサンプリングの有効性を示す。
- 参考スコア(独自算出の注目度): 5.954160581274925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for realistic virtual immersive audio continues to grow, with Head-Related Transfer Functions (HRTFs) playing a key role. HRTFs capture how sound reaches our ears, reflecting unique anatomical features and enhancing spatial perception. It has been shown that personalized HRTFs improve localization accuracy, but their measurement remains time-consuming and requires a noise-free environment. Although machine learning has been shown to reduce the required measurement points and, thus, the measurement time, a controlled environment is still necessary. This paper proposes a method to address this constraint by presenting a novel technique that can upsample sparse, noisy HRTF measurements. The proposed approach combines an HRTF Denoisy U-Net for denoising and an Autoencoding Generative Adversarial Network (AE-GAN) for upsampling from three measurement points. The proposed method achieves a log-spectral distortion (LSD) error of 5.41 dB and a cosine similarity loss of 0.0070, demonstrating the method's effectiveness in HRTF upsampling.
- Abstract(参考訳): リアルな仮想没入型オーディオの需要は増加を続けており、Head-Related Transfer Functions(HRTF)が重要な役割を果たす。
HRTFは、音が耳に届く様子を捉え、ユニークな解剖学的特徴を反映し、空間的知覚を高める。
パーソナライズされたHRTFは、ローカライズ精度を向上させることが示されているが、その測定には時間を要するため、ノイズのない環境が必要である。
機械学習は必要な測定ポイントを減らすことが示されているが、そのため、制御された環境が依然として必要である。
本稿では,この制約に対処する手法を提案する。
提案手法は,デノナイズのためのHRTF Denoisy U-Netと,3つの測定点からのアップサンプリングのための自動符号化生成適応ネットワーク(AE-GAN)を組み合わせる。
提案手法は,5.41dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を実現し,HRTFアップサンプリングの有効性を示す。
関連論文リスト
- J-Invariant Volume Shuffle for Self-Supervised Cryo-Electron Tomogram Denoising on Single Noisy Volume [11.183171651157892]
Cryo-Electron Tomography (Cryo-ET) は、近ネイティブ状態における細胞構造の詳細な3次元可視化を可能にする。
Cryo-ETは画像の制約により信号対雑音比が低い。
本稿では,Cryo-ETボリュームの画像を1つのノイズボリュームで表現する,新しい自己教師型学習モデルを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:06:12Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - HRTF upsampling with a generative adversarial network using a gnomonic
equiangular projection [3.921666645870036]
本稿では、HRTFアップサンプリングにGAN(Generative Adversarial Network)を適用する方法について述べる。
畳み込み型超解像生成対向ネットワーク(SRGAN)を用いてHRTFデータを直接利用するための新しい手法を提案する。
実験の結果, 提案手法は, 対数スペクトル歪み(LSD)と局所化性能において, 3つの基準線すべてより優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:05:09Z) - Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral
Image Denoising [9.119226249676501]
ハイパースペクトル画像(HSI)は、帯域幅が狭いため、ノイズが多いことが多い。
HSIデータキューブのノイズを低減するため、モデル駆動型と学習型の両方の復調アルゴリズムが提案されている。
本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。
論文 参考訳(メタデータ) (2023-05-06T13:28:20Z) - Amplitude-Varying Perturbation for Balancing Privacy and Utility in
Federated Learning [86.08285033925597]
本稿では,フェデレート学習のプライバシを保護するため,時変雑音振幅を持つ新しいDP摂動機構を提案する。
我々は、FLの過度な摂動ノイズによる早期収束を防止するために、シリーズのオンラインリファインメントを導出した。
新しいDP機構のプライバシ保存FLの収束と精度への寄与は、持続的な雑音振幅を持つ最先端のガウスノイズ機構と比較して相関する。
論文 参考訳(メタデータ) (2023-03-07T22:52:40Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。