論文の概要: HRTFformer: A Spatially-Aware Transformer for Personalized HRTF Upsampling in Immersive Audio Rendering
- arxiv url: http://arxiv.org/abs/2510.01891v1
- Date: Thu, 02 Oct 2025 10:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.266318
- Title: HRTFformer: A Spatially-Aware Transformer for Personalized HRTF Upsampling in Immersive Audio Rendering
- Title(参考訳): HRTFformer:没入型オーディオレンダリングにおける個人化HRTFアップサンプリングのための空間認識変換器
- Authors: Xuyi Hu, Jian Li, Shaojie Zhang, Stefan Goetz, Lorenzo Picinali, Ozgur B. Akan, Aidan O. T. Hogg,
- Abstract要約: 本稿では,HRTFアップサンプリングのためのトランスフォーマーアーキテクチャを提案する。
本モデルでは,高精度HRTFをスパース入力測定から再構成し,精度を大幅に向上する。
実験により,本モデルが現実的かつ高忠実なHRTFの生成において,先行手法をはるかに上回っていることが示された。
- 参考スコア(独自算出の注目度): 13.189906008527613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized Head-Related Transfer Functions (HRTFs) are starting to be introduced in many commercial immersive audio applications and are crucial for realistic spatial audio rendering. However, one of the main hesitations regarding their introduction is that creating personalized HRTFs is impractical at scale due to the complexities of the HRTF measurement process. To mitigate this drawback, HRTF spatial upsampling has been proposed with the aim of reducing measurements required. While prior work has seen success with different machine learning (ML) approaches, these models often struggle with long-range spatial consistency and generalization at high upsampling factors. In this paper, we propose a novel transformer-based architecture for HRTF upsampling, leveraging the attention mechanism to better capture spatial correlations across the HRTF sphere. Working in the spherical harmonic (SH) domain, our model learns to reconstruct high-resolution HRTFs from sparse input measurements with significantly improved accuracy. To enhance spatial coherence, we introduce a neighbor dissimilarity loss that promotes magnitude smoothness, yielding more realistic upsampling. We evaluate our method using both perceptual localization models and objective spectral distortion metrics. Experiments show that our model surpasses leading methods by a substantial margin in generating realistic, high-fidelity HRTFs.
- Abstract(参考訳): パーソナライズされた頭部関連伝達関数(HRTF)は、多くの商用没入型オーディオアプリケーションで導入され始めており、現実的な空間的オーディオレンダリングに欠かせない。
しかし, 人為的HRTFの作成は, HRTF測定プロセスの複雑さのため, 大規模では不可能である。
この欠点を軽減するため、HRTFの空間的アップサンプリングが提案されている。
以前の研究では、異なる機械学習(ML)アプローチで成功を収めてきたが、これらのモデルは、しばしば長距離空間の一貫性と高サンプリング係数の一般化に苦しむ。
本稿では,HRTFアップサンプリングのための新しいトランスフォーマーアーキテクチャを提案する。
球面調和 (SH) 領域で作業することで, 高精度な高分解能HRTFをスパース入力測定から再構成し, 精度を大幅に向上する。
空間的コヒーレンスを高めるために, 大きさのスムーズさを促進し, より現実的なアップサンプリングを実現する近傍の異種性損失を導入する。
知覚的局所化モデルと客観的スペクトル歪み測定値の両方を用いて,本手法の評価を行った。
実験により,本モデルが現実的かつ高忠実なHRTFの生成において,先行手法をはるかに上回っていることが示された。
関連論文リスト
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - A Machine Learning Approach for Denoising and Upsampling HRTFs [5.954160581274925]
頭部伝達関数(HRTF)は、音が耳に届く様子を捉え、ユニークな解剖学的特徴を反映し、空間的知覚を高める。
パーソナライズされたHRTFは、ローカライズ精度を向上させることが示されているが、その測定には時間を要するため、ノイズのない環境が必要である。
本稿では,この制約に対処する手法を提案する。
提案手法は,5.41dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を実現し,HRTFアップサンプリングの有効性を示す。
論文 参考訳(メタデータ) (2025-04-24T14:17:57Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - HRTF Estimation using a Score-based Prior [20.62078965099636]
本稿では,スコアベース拡散モデルに基づく頭部伝達関数推定手法を提案する。
HRTFは人間の発話などの自然な励起信号を用いて残響環境で推定される。
HRTFにおける高周波コンテンツの大きなばらつきを,拡散前の拡散が考慮できることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:00:41Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [19.60087366873302]
マルチフィデリティ・サロゲートモデリングは,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
本稿では,MFRNP(Multi-fidelity Residual Neural Processs)を提案する。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - HRTF upsampling with a generative adversarial network using a gnomonic
equiangular projection [3.921666645870036]
本稿では、HRTFアップサンプリングにGAN(Generative Adversarial Network)を適用する方法について述べる。
畳み込み型超解像生成対向ネットワーク(SRGAN)を用いてHRTFデータを直接利用するための新しい手法を提案する。
実験の結果, 提案手法は, 対数スペクトル歪み(LSD)と局所化性能において, 3つの基準線すべてより優れていた。
論文 参考訳(メタデータ) (2023-06-09T11:05:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。