論文の概要: Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with
Depth and Cross Modal Attention
- arxiv url: http://arxiv.org/abs/2111.08046v1
- Date: Mon, 15 Nov 2021 19:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 06:48:26.740531
- Title: Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with
Depth and Cross Modal Attention
- Title(参考訳): mono から binaural へ - 深さとクロスモーダルを考慮した mono audio からのバイノーラルオーディオ生成
- Authors: Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma
- Abstract要約: バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。
オーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭で特別な設定が必要だ。
近年,シーンからの視覚的入力を前提としたモノ・オーディオからオーディオへの持ち上げに向けた取り組みが進められている。
本稿では,画像,深度,音声を符号化する階層型アテンション機構を備えた新しいエンコーダデコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 19.41528806102547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binaural audio gives the listener an immersive experience and can enhance
augmented and virtual reality. However, recording binaural audio requires
specialized setup with a dummy human head having microphones in left and right
ears. Such a recording setup is difficult to build and setup, therefore mono
audio has become the preferred choice in common devices. To obtain the same
impact as binaural audio, recent efforts have been directed towards lifting
mono audio to binaural audio conditioned on the visual input from the scene.
Such approaches have not used an important cue for the task: the distance of
different sound producing objects from the microphones. In this work, we argue
that depth map of the scene can act as a proxy for inducing distance
information of different objects in the scene, for the task of audio
binauralization. We propose a novel encoder-decoder architecture with a
hierarchical attention mechanism to encode image, depth and audio feature
jointly. We design the network on top of state-of-the-art transformer networks
for image and depth representation. We show empirically that the proposed
method outperforms state-of-the-art methods comfortably for two challenging
public datasets FAIR-Play and MUSIC-Stereo. We also demonstrate with
qualitative results that the method is able to focus on the right information
required for the task. The project details are available at
\url{https://krantiparida.github.io/projects/bmonobinaural.html}
- Abstract(参考訳): バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。
しかし、バイノーラルオーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭部を専門に設定する必要がある。
このような記録設定は構築と設定が難しいため、一般的なデバイスではモノオーディオが好まれている。
バイノーラルオーディオと同等の効果を得るため,シーンからの視覚入力を条件としたモノラルオーディオをバイノーラルオーディオに引き上げる試みが近年行われている。
このようなアプローチは、マイクロホンから物体を生成する異なる音の距離という、タスクに重要な手がかりを使用していない。
本研究では,シーンの奥行きマップが,シーン内の異なる物体の距離情報を引き出すプロキシとして機能し,音声バイノーラル化のタスクに役立てることができることを論じる。
本稿では,画像,奥行き,音声を同時符号化する階層的注意機構を備えた,新しいエンコーダ・デコーダアーキテクチャを提案する。
画像と深度表現のための最先端トランスネットワーク上にネットワークを設計する。
提案手法は,FAIR-Play と MUSIC-Stereo の2つの挑戦的な公開データセットに対して,最先端の手法よりも快適に動作できることを実証的に示す。
また,本手法がタスクに必要な適切な情報に集中できることを定性的に示す。
プロジェクトの詳細は \url{https://krantiparida.github.io/projects/bmonobinaural.html} で確認できる。
関連論文リスト
- Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal
Attention [17.274928172342978]
本稿では,各トランスバックボーンから抽出した画像と深度特徴を符号化するために,階層型アテンション機構を用いた新しいエンコーダデコーダアーキテクチャを提案する。
画像の特徴とともに深度機能を追加することで,質的にも定量的にも性能が向上することを示す。
論文 参考訳(メタデータ) (2021-08-10T20:26:44Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。