論文の概要: HRTF upsampling with a generative adversarial network using a gnomonic
equiangular projection
- arxiv url: http://arxiv.org/abs/2306.05812v2
- Date: Tue, 27 Feb 2024 13:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:46:25.120415
- Title: HRTF upsampling with a generative adversarial network using a gnomonic
equiangular projection
- Title(参考訳): gnomonic equiangular projectionを用いた生成逆ネットワークを用いたhrtfアップサンプリング
- Authors: Aidan O. T. Hogg, Mads Jenkins, He Liu, Isaac Squires, Samuel J.
Cooper and Lorenzo Picinali
- Abstract要約: 本稿では、HRTFアップサンプリングにGAN(Generative Adversarial Network)を適用する方法について述べる。
畳み込み型超解像生成対向ネットワーク(SRGAN)を用いてHRTFデータを直接利用するための新しい手法を提案する。
実験の結果, 提案手法は, 対数スペクトル歪み(LSD)と局所化性能において, 3つの基準線すべてより優れていた。
- 参考スコア(独自算出の注目度): 3.921666645870036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An individualised head-related transfer function (HRTF) is very important for
creating realistic virtual reality (VR) and augmented reality (AR)
environments. However, acoustically measuring high-quality HRTFs requires
expensive equipment and an acoustic lab setting. To overcome these limitations
and to make this measurement more efficient HRTF upsampling has been exploited
in the past where a high-resolution HRTF is created from a low-resolution one.
This paper demonstrates how generative adversarial networks (GANs) can be
applied to HRTF upsampling. We propose a novel approach that transforms the
HRTF data for direct use with a convolutional super-resolution generative
adversarial network (SRGAN). This new approach is benchmarked against three
baselines: barycentric upsampling, spherical harmonic (SH) upsampling and an
HRTF selection approach. Experimental results show that the proposed method
outperforms all three baselines in terms of log-spectral distortion (LSD) and
localisation performance using perceptual models when the input HRTF is sparse
(less than 20 measured positions).
- Abstract(参考訳): 個人化された頭部関連伝達関数(HRTF)は、現実的な仮想現実(VR)と拡張現実(AR)環境を作成する上で非常に重要である。
しかし、高品質のHRTFを音響的に測定するには高価な機器と音響実験室が必要だ。
これらの制限を克服し、この測定をより効率的にするために、高分解能HRTFが低分解能のHRTFから生成される過去に利用されてきた。
本稿では,hrtfアップサンプリングにgans(generative adversarial network)を適用する方法を示す。
本稿では,畳み込み型超解像生成対向ネットワーク(SRGAN)を用いてHRTFデータを直接利用するための新しい手法を提案する。
この新しいアプローチは、barycentric upsampling、 sphere harmonic (sh) upsampling、hrtf selection approachの3つのベースラインに対してベンチマークされている。
実験の結果,入力hrtfがスパース(測定位置20以下)である場合,対数スペクトル歪み(lsd)および知覚モデルを用いた局所化性能において,提案手法が3つのベースラインを上回った。
関連論文リスト
- Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - HRTF Estimation using a Score-based Prior [20.62078965099636]
本稿では,スコアベース拡散モデルに基づく頭部伝達関数推定手法を提案する。
HRTFは人間の発話などの自然な励起信号を用いて残響環境で推定される。
HRTFにおける高周波コンテンツの大きなばらつきを,拡散前の拡散が考慮できることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:00:41Z) - Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。
高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-08T08:38:28Z) - NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation [60.47114985993196]
NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。
我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - HRTF Interpolation using a Spherical Neural Process Meta-Learner [1.3505077405741583]
本稿では,HRTF誤り訂正に特化した畳み込みニューラルプロセスメタラーナを提案する。
一般集団平均HRTFは、補正の前に最初の推定値を形成する。
トレーニングされたモデルは、最先端の手法と比較して最大3dBの相対誤差削減を達成する。
論文 参考訳(メタデータ) (2023-10-20T11:41:54Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Binaural Rendering of Ambisonic Signals by Neural Networks [28.056334728309423]
実験の結果、ニューラルネットワークは従来の客観的指標よりも優れており、同等の主観的指標が得られることがわかった。
提案システムは,3.83,3.58,3.87,3.58の品質,音色,局在,浸漬寸法の7.32とMOSのSDRを実現する。
論文 参考訳(メタデータ) (2022-11-04T07:57:37Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks [10.089520556398574]
本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
論文 参考訳(メタデータ) (2020-06-16T09:07:33Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。