論文の概要: Binaural Rendering of Ambisonic Signals by Neural Networks
- arxiv url: http://arxiv.org/abs/2211.02301v1
- Date: Fri, 4 Nov 2022 07:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:19:02.898558
- Title: Binaural Rendering of Ambisonic Signals by Neural Networks
- Title(参考訳): ニューラルネットワークによるアンビソン信号のバイノーラルレンダリング
- Authors: Yin Zhu, Qiuqiang Kong, Junjie Shi, Shilei Liu, Xuzhou Ye, Ju-chiang
Wang, Junping Zhang
- Abstract要約: 実験の結果、ニューラルネットワークは従来の客観的指標よりも優れており、同等の主観的指標が得られることがわかった。
提案システムは,3.83,3.58,3.87,3.58の品質,音色,局在,浸漬寸法の7.32とMOSのSDRを実現する。
- 参考スコア(独自算出の注目度): 28.056334728309423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binaural rendering of ambisonic signals is of broad interest to virtual
reality and immersive media. Conventional methods often require manually
measured Head-Related Transfer Functions (HRTFs). To address this issue, we
collect a paired ambisonic-binaural dataset and propose a deep learning
framework in an end-to-end manner. Experimental results show that neural
networks outperform the conventional method in objective metrics and achieve
comparable subjective metrics. To validate the proposed framework, we
experimentally explore different settings of the input features, model
structures, output features, and loss functions. Our proposed system achieves
an SDR of 7.32 and MOSs of 3.83, 3.58, 3.87, 3.58 in quality, timbre,
localization, and immersion dimensions.
- Abstract(参考訳): ambisonic signalのバイノーラルレンダリングは、仮想現実と没入型メディアに広く関心を寄せている。
従来の方法は手動で計測される頭部伝達関数(HRTF)を必要とすることが多い。
この問題に対処するために,ペアのアンビソン型バイナリデータセットを収集し,エンドツーエンドでディープラーニングフレームワークを提案する。
実験の結果、ニューラルネットワークは従来の客観的指標よりも優れており、同等の主観的指標が得られることがわかった。
提案するフレームワークを検証するために,入力特徴,モデル構造,出力特徴,損失関数の異なる設定を実験的に検討した。
提案システムは,3.83,3.58,3.87,3.58の品質,音色,局在,浸漬寸法の7.32とMOSのSDRを実現する。
関連論文リスト
- Interpreting Deep Neural Network-Based Receiver Under Varying Signal-To-Noise Ratios [6.643082745560234]
本稿では,畳み込みニューラルネットワークに基づくレシーバモデルに着目し,ニューラルネットワークを解釈する新しい手法を提案する。
この方法は、モデルのどのユニットまたはユニットが関心のチャネルパラメータに関する最も多く(または少なくとも)情報を含むかを特定する。
リンクレベルのシミュレーション実験では、最も(少なくとも)信号対雑音比の処理に寄与する単位を特定する方法の有効性が示されている。
論文 参考訳(メタデータ) (2024-09-25T09:26:19Z) - Towards a Robust Framework for NeRF Evaluation [11.348562090906576]
ニューラルレージアンスフィールド(NeRF)パイプラインからニューラルレンダリングネットワークを分離する新しいテストフレームワークを提案する。
次に, 明示的放射場表現に基づくNeRFの訓練と評価を行い, パラメトリック評価を行う。
我々のアプローチは、NeRF法の比較客観的評価フレームワークを作成する可能性を提供します。
論文 参考訳(メタデータ) (2023-05-29T13:30:26Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Domain Adaptation: the Key Enabler of Neural Network Equalizers in
Coherent Optical Systems [1.4549914190846531]
本稿では,実伝送におけるニューラルネットワークに基づく等化器の校正のための領域適応とランダム化手法を提案する。
このアプローチでは、トレーニングプロセスの最大99%が削減される。
論文 参考訳(メタデータ) (2022-02-25T13:46:33Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks [10.089520556398574]
本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
論文 参考訳(メタデータ) (2020-06-16T09:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。