論文の概要: Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation
- arxiv url: http://arxiv.org/abs/2007.09902v1
- Date: Mon, 20 Jul 2020 06:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:41:18.602529
- Title: Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation
- Title(参考訳): Sep-Stereo:アソシエイト音源分離による視覚誘導ステレオオーディオ生成
- Authors: Hang Zhou, Xudong Xu, Dahua Lin, Xiaogang Wang, Ziwei Liu
- Abstract要約: 本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
- 参考スコア(独自算出の注目度): 96.18178553315472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereophonic audio is an indispensable ingredient to enhance human auditory
experience. Recent research has explored the usage of visual information as
guidance to generate binaural or ambisonic audio from mono ones with stereo
supervision. However, this fully supervised paradigm suffers from an inherent
drawback: the recording of stereophonic audio usually requires delicate devices
that are expensive for wide accessibility. To overcome this challenge, we
propose to leverage the vastly available mono data to facilitate the generation
of stereophonic audio. Our key observation is that the task of visually
indicated audio separation also maps independent audios to their corresponding
visual positions, which shares a similar objective with stereophonic audio
generation. We integrate both stereo generation and source separation into a
unified framework, Sep-Stereo, by considering source separation as a particular
type of audio spatialization. Specifically, a novel associative pyramid network
architecture is carefully designed for audio-visual feature fusion. Extensive
experiments demonstrate that our framework can improve the stereophonic audio
generation results while performing accurate sound separation with a shared
backbone.
- Abstract(参考訳): ステレオフォニックオーディオは、人間の聴覚経験を高めるために欠かせない要素である。
近年,ステレオ・インフォメーションを持つモノからバイノーラル・アンビソニック・オーディオを生成するためのガイダンスとしての視覚情報の利用について検討している。
しかし、この完全に監督されたパラダイムは固有の欠点に悩まされている。ステレオオーディオの録音は通常、幅広いアクセシビリティーのために高価な繊細なデバイスを必要とする。
この課題を克服するため,我々は,広く利用可能なmonoデータを活用してステレオ音声の生成を容易にすることを提案する。
視覚的に指示された音声分離のタスクは、独立した音声を対応する視覚位置にマッピングする作業であり、ステレオ音声生成と同じような目的を持つ。
ステレオ生成と音源分離を一体化したフレームワークであるSep-Stereoに統合し、音源分離を特定のタイプの音響空間化として検討する。
特に、新しい連想ピラミッドネットワークアーキテクチャは、音声-視覚的特徴融合のために慎重に設計されている。
広汎な実験により,共用バックボーンを用いて正確な音源分離を行いながら,ステレオ音声生成結果を改善することができることが示された。
関連論文リスト
- Cross-modal Generative Model for Visual-Guided Binaural Stereo
Generation [18.607236792587614]
本稿では,モノオーディオからステレオ音声を生成するための,視覚的に誘導された生成的敵対的アプローチを提案する。
音声の空間的知覚を測定する尺度を初めて提案する。
提案手法は,2つのデータセットと5つの評価指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-13T09:53:14Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with
Depth and Cross Modal Attention [19.41528806102547]
バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。
オーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭で特別な設定が必要だ。
近年,シーンからの視覚的入力を前提としたモノ・オーディオからオーディオへの持ち上げに向けた取り組みが進められている。
本稿では,画像,深度,音声を符号化する階層型アテンション機構を備えた新しいエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-15T19:07:39Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。