Fugu-MT 論文翻訳(概要): HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection

論文の概要: HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection

arxiv url: http://arxiv.org/abs/2306.05812v1
Date: Fri, 9 Jun 2023 11:05:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 13:38:04.597726
Title: HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection
Title（参考訳）: gnomonic equiangular projectionを用いた生成逆ネットワークを用いたhrtfアップサンプリング
Authors: Aidan O. T. Hogg, Mads Jenkins, He Liu, Isaac Squires, Samuel J. Cooper and Lorenzo Picinali
Abstract要約: 現実的バーチャルリアリティ(VR)と拡張現実(AR)環境を作成するには,個人化頭部伝達関数(HRTF)が不可欠である。本稿では、HRTFアップサンプリングにGAN(Generative Adversarial Network)を適用する方法について述べる。我々は、畳み込み超解像生成対向ネットワーク(SRGAN)を用いて、HRTFデータを便利な用途に変換する新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 5.9405210617831665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An individualised head-related transfer function (HRTF) is essential for creating realistic virtual reality (VR) and augmented reality (AR) environments. However, acoustically measuring high-quality HRTFs requires expensive equipment and an acoustic lab setting. To overcome these limitations and to make this measurement more efficient HRTF upsampling has been exploited in the past where a high-resolution HRTF is created from a low-resolution one. This paper demonstrates how generative adversarial networks (GANs) can be applied to HRTF upsampling. We propose a novel approach that transforms the HRTF data for convenient use with a convolutional super-resolution generative adversarial network (SRGAN). This new approach is benchmarked against two baselines: barycentric upsampling and a HRTF selection approach. Experimental results show that the proposed method outperforms both baselines in terms of log-spectral distortion (LSD) and localisation performance using perceptual models when the input HRTF is sparse.
Abstract（参考訳）: 現実的バーチャルリアリティ(VR)と拡張現実(AR)環境を作成するには,個人化頭部伝達関数(HRTF)が不可欠である。しかし、高品質のHRTFを音響的に測定するには高価な機器と音響実験室が必要だ。これらの制限を克服し、この測定をより効率的にするために、高分解能HRTFが低分解能のHRTFから生成される過去に利用されてきた。本稿では,hrtfアップサンプリングにgans(generative adversarial network)を適用する方法を示す。本稿では、畳み込み超解像生成対向ネットワーク(SRGAN)を用いて、HRTFデータを便利な用途に変換する新しい手法を提案する。この新しいアプローチは、barycentric upsamplingとhrtf selectionの2つのベースラインに対してベンチマークされている。実験の結果,本手法は入力hrtfがスパースである場合,対数スペクトル歪み (lsd) と知覚モデルを用いた局所化性能で両ベースラインを上回った。

関連論文リスト

UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-01-03T16:06:27Z)
Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-11-21T12:57:23Z)
HRTFformer: A Spatially-Aware Transformer for Personalized HRTF Upsampling in Immersive Audio Rendering [13.189906008527613]
本稿では,HRTFアップサンプリングのためのトランスフォーマーアーキテクチャを提案する。本モデルでは,高精度HRTFをスパース入力測定から再構成し,精度を大幅に向上する。実験により,本モデルが現実的かつ高忠実なHRTFの生成において,先行手法をはるかに上回っていることが示された。
論文参考訳（メタデータ） (2025-10-02T10:59:21Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
A Machine Learning Approach for Denoising and Upsampling HRTFs [5.954160581274925]
頭部伝達関数(HRTF)は、音が耳に届く様子を捉え、ユニークな解剖学的特徴を反映し、空間的知覚を高める。パーソナライズされたHRTFは、ローカライズ精度を向上させることが示されているが、その測定には時間を要するため、ノイズのない環境が必要である。本稿では,この制約に対処する手法を提案する。提案手法は,5.41dBの対数スペクトル歪み(LSD)誤差と0.0070のコサイン類似性損失を実現し,HRTFアップサンプリングの有効性を示す。
論文参考訳（メタデータ） (2025-04-24T14:17:57Z)
Bridging Simulation and Reality: A 3D Clustering-Based Deep Learning Model for UAV-Based RF Source Localization [0.0]
無人航空機(UAV)は、地上法よりもRFソースの局所化に大きな利点をもたらす。近年のディープラーニング(DL)の進歩は,特に屋外シナリオにおいて,局所化の精度をさらに高めた。本稿では、3Dクラスタリングに基づく特徴抽出をロバストなローカライゼーションに活用するDLベースの3DクラスタベースRealAdaptRNetを提案する。
論文参考訳（メタデータ） (2025-02-02T05:48:44Z)
Unsupervised Multi-Parameter Inverse Solving for Reducing Ring Artifacts in 3D X-Ray CBCT [35.73129314731503]
リングアーティファクトは、X線検出器の非理想的応答により、3DコーンビームCT(CBCT)で一般的である。現在の最先端(SOTA)リングアーティファクトリダクション(RAR)アルゴリズムは、教師あり学習のための広範なペアCTサンプルに依存している。マルチパラメータ逆問題として3次元CBCT RARを定式化した教師なしの textbfRiner を導入する。
論文参考訳（メタデータ） (2024-12-08T08:22:58Z)
Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文参考訳（メタデータ） (2024-10-07T18:18:54Z)
HRTF Estimation using a Score-based Prior [20.62078965099636]
本稿では,スコアベース拡散モデルに基づく頭部伝達関数推定手法を提案する。 HRTFは人間の発話などの自然な励起信号を用いて残響環境で推定される。 HRTFにおける高周波コンテンツの大きなばらつきを,拡散前の拡散が考慮できることを示す。
論文参考訳（メタデータ） (2024-10-02T14:00:41Z)
DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2024-09-16T06:33:26Z)
Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文参考訳（メタデータ） (2024-05-08T08:38:28Z)
NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation [60.47114985993196]
NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。 NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
論文参考訳（メタデータ） (2024-04-22T06:59:03Z)
HRTF Interpolation using a Spherical Neural Process Meta-Learner [1.3505077405741583]
本稿では,HRTF誤り訂正に特化した畳み込みニューラルプロセスメタラーナを提案する。一般集団平均HRTFは、補正の前に最初の推定値を形成する。トレーニングされたモデルは、最先端の手法と比較して最大3dBの相対誤差削減を達成する。
論文参考訳（メタデータ） (2023-10-20T11:41:54Z)
GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文参考訳（メタデータ） (2023-01-31T05:56:06Z)
Binaural Rendering of Ambisonic Signals by Neural Networks [28.056334728309423]
実験の結果、ニューラルネットワークは従来の客観的指標よりも優れており、同等の主観的指標が得られることがわかった。提案システムは,3.83,3.58,3.87,3.58の品質,音色,局在,浸漬寸法の7.32とMOSのSDRを実現する。
論文参考訳（メタデータ） (2022-11-04T07:57:37Z)
Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。 D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文参考訳（メタデータ） (2020-10-30T20:26:28Z)
Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文参考訳（メタデータ） (2020-10-12T16:50:22Z)
Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural Networks [10.089520556398574]
本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。 SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
論文参考訳（メタデータ） (2020-06-16T09:07:33Z)
Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文参考訳（メタデータ） (2020-01-14T03:34:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。