論文の概要: Neural Fourier Shift for Binaural Speech Rendering
- arxiv url: http://arxiv.org/abs/2211.00878v1
- Date: Wed, 2 Nov 2022 04:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:33:11.384420
- Title: Neural Fourier Shift for Binaural Speech Rendering
- Title(参考訳): バイノーラル音声レンダリングのためのニューラルフーリエシフト
- Authors: Jin Woo Lee, Kyogu Lee
- Abstract要約: 音源の位置, 方向, 音源から音声を描画するニューラルネットワークを提案する。
最大25倍のメモリと6倍の計算量を持つ実験結果は、Neural Shift(NFS)がベンチマークデータセットの以前の研究より優れていることを示している。
- 参考スコア(独自算出の注目度): 16.957415282256758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural network for rendering binaural speech from given monaural
audio, position, and orientation of the source. Most of the previous works have
focused on synthesizing binaural speeches by conditioning the positions and
orientations in the feature space of convolutional neural networks. These
synthesis approaches are powerful in estimating the target binaural speeches
even for in-the-wild data but are difficult to generalize for rendering the
audio from out-of-distribution domains. To alleviate this, we propose Neural
Fourier Shift (NFS), a novel network architecture that enables binaural speech
rendering in the Fourier space. Specifically, utilizing a geometric time delay
based on the distance between the source and the receiver, NFS is trained to
predict the delays and scales of various early reflections. NFS is efficient in
both memory and computational cost, is interpretable, and operates
independently of the source domain by its design. With up to 25 times lighter
memory and 6 times fewer calculations, the experimental results show that NFS
outperforms the previous studies on the benchmark dataset.
- Abstract(参考訳): そこで本研究では,音源の音質,位置,方向からバイノーラル音声を生成するニューラルネットワークを提案する。
これまでの研究のほとんどは、畳み込みニューラルネットワークの特徴空間の位置と向きを条件付けしてバイノーラルスピーチの合成に焦点を当てている。
これらの合成手法は,帯域内データにおいてもターゲットバイノーラル音声の推定に有効であるが,分布外領域からの音声のレンダリングでは一般化が難しい。
そこで本研究では,フーリエ空間におけるバイノーラル音声のレンダリングを可能にする新しいネットワークアーキテクチャであるneural fourier shift (nfs)を提案する。
具体的には、ソースと受信機の距離に基づいて幾何学的な時間遅延を利用して、NFSは様々な初期反射の遅延とスケールを予測するように訓練される。
NFSはメモリと計算コストの両方で効率的であり、解釈可能であり、その設計によってソースドメインとは独立して動作する。
最大25倍のメモリと6倍の計算量を持つ実験結果から、NFSはベンチマークデータセットの以前の研究よりも優れていることが示された。
関連論文リスト
- Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - FFC-SE: Fast Fourier Convolution for Speech Enhancement [1.0499611180329804]
Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。
本研究では、FFCを音声強調に適応させるニューラルネットワークアーキテクチャを設計する。
その結果、FFCに基づくニューラルネットワークは、類似の畳み込みモデルよりも優れており、他の音声強調ベースラインよりも良い結果または同等の結果が得られた。
論文 参考訳(メタデータ) (2022-04-06T18:52:47Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。