論文の概要: Visually Informed Binaural Audio Generation without Binaural Audios
- arxiv url: http://arxiv.org/abs/2104.06162v1
- Date: Tue, 13 Apr 2021 13:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:16:35.220192
- Title: Visually Informed Binaural Audio Generation without Binaural Audios
- Title(参考訳): バイノーラル音声のない視覚情報バイノーラル音声生成
- Authors: Xudong Xu, Hang Zhou, Ziwei Liu, Bo Dai, Xiaogang Wang, Dahua Lin
- Abstract要約: 記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 130.80178993441413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Stereophonic audio, especially binaural audio, plays an essential role in
immersive viewing environments. Recent research has explored generating
visually guided stereophonic audios supervised by multi-channel audio
collections. However, due to the requirement of professional recording devices,
existing datasets are limited in scale and variety, which impedes the
generalization of supervised methods in real-world scenarios. In this work, we
propose PseudoBinaural, an effective pipeline that is free of binaural
recordings. The key insight is to carefully build pseudo visual-stereo pairs
with mono data for training. Specifically, we leverage spherical harmonic
decomposition and head-related impulse response (HRIR) to identify the
relationship between spatial locations and received binaural audios. Then in
the visual modality, corresponding visual cues of the mono data are manually
placed at sound source positions to form the pairs. Compared to
fully-supervised paradigms, our binaural-recording-free pipeline shows great
stability in cross-dataset evaluation and achieves comparable performance under
subjective preference. Moreover, combined with binaural recordings, our method
is able to further boost the performance of binaural audio generation under
supervised settings.
- Abstract(参考訳): ステレオフォニックオーディオ、特にバイノーラルオーディオは、没入型視聴環境において重要な役割を果たす。
近年,マルチチャンネルオーディオコレクションによる視覚誘導ステレオ音声の生成が研究されている。
しかし、プロの録音装置の要求により、既存のデータセットはスケールやバラエティに制限があり、実世界のシナリオにおける教師あり手法の一般化を妨げている。
本研究では,バイノーラル記録のない効果的なパイプラインであるpseudobinauralを提案する。
重要な洞察は、トレーニング用のモノデータと擬似視覚ステレオペアを慎重に構築することだ。
具体的には,球面高調波分解と頭部関連インパルス応答(hrir)を用いて,空間的位置と受聴両耳音の関係を同定する。
次に、視覚モダリティにおいて、モノデータの対応する視覚手がかりを音源位置に手動で配置してペアを形成する。
完全教師付きパラダイムと比較して、我々のバイノーラル・レコーディングフリーパイプラインは、クロスデータセット評価において大きな安定性を示し、主観的嗜好の下で同等のパフォーマンスを達成する。
さらに,バイノーラル録音と組み合わせることで,教師付き環境下でのバイノーラル音声生成の性能をさらに向上させることができる。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。