論文の概要: Cross-modal Generative Model for Visual-Guided Binaural Stereo
Generation
- arxiv url: http://arxiv.org/abs/2311.07630v1
- Date: Mon, 13 Nov 2023 09:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:42:31.513837
- Title: Cross-modal Generative Model for Visual-Guided Binaural Stereo
Generation
- Title(参考訳): 視覚誘導バイノーラルステレオ生成のためのクロスモーダル生成モデル
- Authors: Zhaojian Li, Bin Zhao and Yuan Yuan
- Abstract要約: 本稿では,モノオーディオからステレオ音声を生成するための,視覚的に誘導された生成的敵対的アプローチを提案する。
音声の空間的知覚を測定する尺度を初めて提案する。
提案手法は,2つのデータセットと5つの評価指標に対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 18.607236792587614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binaural stereo audio is recorded by imitating the way the human ear receives
sound, which provides people with an immersive listening experience. Existing
approaches leverage autoencoders and directly exploit visual spatial
information to synthesize binaural stereo, resulting in a limited
representation of visual guidance. For the first time, we propose a visually
guided generative adversarial approach for generating binaural stereo audio
from mono audio. Specifically, we develop a Stereo Audio Generation Model
(SAGM), which utilizes shared spatio-temporal visual information to guide the
generator and the discriminator to work separately. The shared visual
information is updated alternately in the generative adversarial stage,
allowing the generator and discriminator to deliver their respective guided
knowledge while visually sharing. The proposed method learns bidirectional
complementary visual information, which facilitates the expression of visual
guidance in generation. In addition, spatial perception is a crucial attribute
of binaural stereo audio, and thus the evaluation of stereo spatial perception
is essential. However, previous metrics failed to measure the spatial
perception of audio. To this end, a metric to measure the spatial perception of
audio is proposed for the first time. The proposed metric is capable of
measuring the magnitude and direction of spatial perception in the temporal
dimension. Further, considering its function, it is feasible to utilize it
instead of demanding user studies to some extent. The proposed method achieves
state-of-the-art performance on 2 datasets and 5 evaluation metrics.
Qualitative experiments and user studies demonstrate that the method generates
space-realistic stereo audio.
- Abstract(参考訳): バイノーラルステレオオーディオは、人間の耳が音を受信する方法を模倣し、没入感のある聴取体験を提供する。
既存のアプローチではオートエンコーダを利用し、視覚空間情報を直接利用してバイノーラルステレオを合成し、視覚誘導の限られた表現をもたらす。
そこで,本研究では,モノラルオーディオからバイノーラルステレオ音声を生成するための視覚誘導生成型逆向き手法を提案する。
具体的には,共有時空間情報を利用したステレオ音声生成モデル(SAGM)を開発し,生成器と識別器を別々に動作させる。
共有された視覚情報は生成的敵ステージにおいて交互に更新され、生成者および判別者が視覚的に共有しながらそれぞれのガイドされた知識を配信することができる。
提案手法は双方向補完視覚情報を学習し,生成時の視覚誘導の表現を容易にする。
加えて、空間知覚はバイノーラルステレオオーディオの重要な特性であり、ステレオ空間知覚の評価は不可欠である。
しかし、以前の測定では音の空間知覚は測定できなかった。
この目的のために,音声の空間的知覚を測定する尺度を初めて提案する。
提案手法は,時間次元における空間知覚の大きさと方向を測定することができる。
また、その機能を考えると、ある程度のユーザー研究を要求するのではなく、利用することが可能である。
提案手法は,2つのデータセットと5つの評価指標で最先端の性能を実現する。
定性的実験とユーザスタディにより、この手法が空間現実的なステレオオーディオを生成することを示す。
関連論文リスト
- Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。
空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。