論文の概要: Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation
- arxiv url: http://arxiv.org/abs/2105.00708v1
- Date: Mon, 3 May 2021 09:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:38:55.419516
- Title: Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation
- Title(参考訳): 空間音声生成における部分監督による視聴覚一貫性の活用
- Authors: Yan-Bo Lin and Yu-Chiang Frank Wang
- Abstract要約: 本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
- 参考スコア(独自算出の注目度): 45.526051369551915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perceives rich auditory experience with distinct sound heard by ears.
Videos recorded with binaural audio particular simulate how human receives
ambient sound. However, a large number of videos are with monaural audio only,
which would degrade the user experience due to the lack of ambient information.
To address this issue, we propose an audio spatialization framework to convert
a monaural video into a binaural one exploiting the relationship across audio
and visual components. By preserving the left-right consistency in both audio
and visual modalities, our learning strategy can be viewed as a self-supervised
learning technique, and alleviates the dependency on a large amount of video
data with ground truth binaural audio data during training. Experiments on
benchmark datasets confirm the effectiveness of our proposed framework in both
semi-supervised and fully supervised scenarios, with ablation studies and
visualization further support the use of our model for audio spatialization.
- Abstract(参考訳): 人間は耳から聞こえる音で豊かな聴覚経験を知覚する。
バイノーラルオーディオで録音されたビデオは、人間が周囲の音を受信する方法をシミュレートする。
しかし、多くのビデオはモノラルオーディオのみを備えており、環境情報の欠如によりユーザエクスペリエンスが低下する可能性がある。
この問題に対処するために,音声と視覚のコンポーネント間の関係を生かして,モノーラル映像をバイノーラル映像に変換するオーディオ空間化フレームワークを提案する。
学習戦略は,音声と視覚の両方における左右の一貫性を保ちながら,自己教師あり学習手法と見なすことができ,訓練中の真理バイノーラル音声データを用いた大量の映像データへの依存を軽減できる。
ベンチマークデータセットを用いた実験により,半教師付きシナリオと完全教師付きシナリオの両方において,提案手法の有効性が確認された。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。