Fugu-MT 論文翻訳(概要): End-to-End Binaural Speech Synthesis

論文の概要: End-to-End Binaural Speech Synthesis

arxiv url: http://arxiv.org/abs/2207.03697v1
Date: Fri, 8 Jul 2022 05:18:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-11 13:32:52.927092
Title: End-to-End Binaural Speech Synthesis
Title（参考訳）: エンドツーエンドバイノーラル音声合成
Authors: Wen Chin Huang, Dejan Markovic, Alexander Richard, Israel Dejene Gebru and Anjali Menon
Abstract要約: 本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
参考スコア（独自算出の注目度）: 71.1869877389535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present an end-to-end binaural speech synthesis system that combines a low-bitrate audio codec with a powerful binaural decoder that is capable of accurate speech binauralization while faithfully reconstructing environmental factors like ambient noise or reverb. The network is a modified vector-quantized variational autoencoder, trained with several carefully designed objectives, including an adversarial loss. We evaluate the proposed system on an internal binaural dataset with objective metrics and a perceptual study. Results show that the proposed approach matches the ground truth data more closely than previous methods. In particular, we demonstrate the capability of the adversarial loss in capturing environment effects needed to create an authentic auditory scene.
Abstract（参考訳）: 本研究では、低ビットレートオーディオコーデックと、環境騒音や残響などの環境要因を忠実に再構築しながら、正確なバイノーラル化が可能な強力なバイノーラルデコーダを組み合わせたエンドツーエンドのバイノーラル音声合成システムを提案する。ネットワークは改良されたベクトル量子化変分オートエンコーダであり、敵の損失を含むいくつかの注意深く設計された目標で訓練されている。提案手法を,客観的な計測値と知覚的研究値を用いて内部バイノーラルデータセット上で評価した。その結果,提案手法は従来の手法よりも真理データに近いことがわかった。特に,実際の聴覚シーンを作るのに必要な環境効果を捉える際に,敵の損失の可能性を実証する。

関連論文リスト

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-28T20:59:15Z)
Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文参考訳（メタデータ） (2024-11-13T06:55:18Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
End-to-end multi-channel speaker extraction and binaural speech synthesis [26.373624846079686]
音声明瞭度と空間的音声浸漬は,遠隔会議体験を高める上で最も重要な2つの要因である。本稿では,マルチチャネルノイズと残響信号を直接,クリーンで空間化された音声にマッピングする能力を持つエンドツーエンドのディープラーニングフレームワークを提案する。本研究では,空間レンダリングの精度向上を目的とした,新たな等級重み付き音間レベル差損失関数を提案する。
論文参考訳（メタデータ） (2024-10-08T06:55:35Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文参考訳（メタデータ） (2024-05-29T03:16:14Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Listen2Scene: Interactive material-aware binaural sound propagation for reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文参考訳（メタデータ） (2023-02-02T04:09:23Z)
Timbre Transfer with Variational Auto Encoding and Cycle-Consistent Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文参考訳（メタデータ） (2021-09-05T15:06:53Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
Joint Blind Room Acoustic Characterization From Speech And Music Signals Using Convolutional Recurrent Neural Networks [13.12834490248018]
残響時間、明瞭度、直接残響比は、残響環境を記述するために定義された音響パラメータである。最近の音声と機械学習を組み合わせると、これらのパラメータは音声や音楽信号を使って盲目的に推定できる。音声および/または音楽信号を用いた視覚的関節音響パラメータ推定のための頑健なエンドツーエンド手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:41:21Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。