論文の概要: Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals
- arxiv url: http://arxiv.org/abs/2410.05739v1
- Date: Tue, 8 Oct 2024 06:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:09:48.804112
- Title: Array2BR: An End-to-End Noise-immune Binaural Audio Synthesis from Microphone-array Signals
- Title(参考訳): Array2BR:マイクロホンアレイ信号によるノイズ-免疫性バイノーラルオーディオ合成
- Authors: Cheng Chi, Xiaoyu Li, Andong Li, Yuxuan Ke, Xiaodong Li, Chengshi Zheng,
- Abstract要約: 本稿では、マイクロホンアレイ信号から、Array2BRと略される新しいエンドツーエンドノイズ免疫合成フレームワークを提案する。
従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
- 参考スコア(独自算出の注目度): 31.30005077444649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Telepresence technology aims to provide an immersive virtual presence for remote conference applications, and it is extremely important to synthesize high-quality binaural audio signals for this aim. Because the ambient noise is often inevitable in practical application scenarios, it is highly desired that binaural audio signals without noise can be obtained from microphone-array signals directly. For this purpose, this paper proposes a new end-to-end noise-immune binaural audio synthesis framework from microphone-array signals, abbreviated as Array2BR, and experimental results show that binaural cues can be correctly mapped and noise can be well suppressed simultaneously using the proposed framework. Compared with existing methods, the proposed method achieved better performance in terms of both objective and subjective metric scores.
- Abstract(参考訳): テレプレゼンス技術は,遠隔会議アプリケーションに没入型仮想プレゼンスを提供することを目的としており,高品質なバイノーラル音声信号を合成することが極めて重要である。
実運用シナリオでは環境雑音は避けられないことが多いため,マイクロホンアレイ信号から直接,雑音のないバイノーラル音声信号を得ることができることが望まれる。
そこで本研究では,マイクロホンアレイ信号を用いた音声合成フレームワークArray2BRを提案するとともに,バイノーラルキューを正しくマッピングし,ノイズを適切に抑制できることを示す。
従来の手法と比較して,提案手法は客観的評価と主観的評価の両点において優れた性能を示した。
関連論文リスト
- HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。