論文の概要: Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal
Attention
- arxiv url: http://arxiv.org/abs/2108.04906v1
- Date: Tue, 10 Aug 2021 20:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 20:35:50.378712
- Title: Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal
Attention
- Title(参考訳): 階層的クロスモーダルアテンションを用いた奥行き注入バイノーラルオーディオ生成
- Authors: Kranti Kumar Parida, Siddharth Srivastava, Neeraj Matiyali, Gaurav
Sharma
- Abstract要約: 本稿では,各トランスバックボーンから抽出した画像と深度特徴を符号化するために,階層型アテンション機構を用いた新しいエンコーダデコーダアーキテクチャを提案する。
画像の特徴とともに深度機能を追加することで,質的にも定量的にも性能が向上することを示す。
- 参考スコア(独自算出の注目度): 17.274928172342978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binaural audio gives the listener the feeling of being in the recording place
and enhances the immersive experience if coupled with AR/VR. But the problem
with binaural audio recording is that it requires a specialized setup which is
not possible to fabricate within handheld devices as compared to traditional
mono audio that can be recorded with a single microphone. In order to overcome
this drawback, prior works have tried to uplift the mono recorded audio to
binaural audio as a post processing step conditioning on the visual input. But
all the prior approaches missed other most important information required for
the task, i.e. distance of different sound producing objects from the recording
setup. In this work, we argue that the depth map of the scene can act as a
proxy for encoding distance information of objects in the scene and show that
adding depth features along with image features improves the performance both
qualitatively and quantitatively. We propose a novel encoder-decoder
architecture, where we use a hierarchical attention mechanism to encode the
image and depth feature extracted from individual transformer backbone, with
audio features at each layer of the decoder.
- Abstract(参考訳): バイノーラルオーディオは、リスナーに録音場所にいる感覚を与え、AR/VRと組み合わせることで没入感を高める。
しかし、バイノーラルオーディオ記録の問題は、単一のマイクで録音できる従来のモノオーディオと比較して、ハンドヘルドデバイス内で製造できない特別な設定を必要とすることである。
この欠点を克服するために、先行研究は、視覚入力を条件とした後処理ステップとして、モノ録音音声をバイノーラルオーディオに高めようとした。
しかし、以前のアプローチはすべて、タスクに必要な他の重要な情報を見逃していた。
録音装置から異なる音が生成する物体の距離。
本研究では、シーンの奥行きマップがシーン内の物体の距離情報を符号化するプロキシとして機能し、画像の特徴を付加することで、質的にも定量的にも性能が向上することを示す。
本稿では,デコーダの各層に音声特徴を有するトランスフォーマーバックボーンから抽出した画像と深度特徴を符号化するために,階層的アテンション機構を用いた新しいエンコーダデコーダアーキテクチャを提案する。
関連論文リスト
- Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with
Depth and Cross Modal Attention [19.41528806102547]
バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。
オーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭で特別な設定が必要だ。
近年,シーンからの視覚的入力を前提としたモノ・オーディオからオーディオへの持ち上げに向けた取り組みが進められている。
本稿では,画像,深度,音声を符号化する階層型アテンション機構を備えた新しいエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-15T19:07:39Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。