論文の概要: Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video
- arxiv url: http://arxiv.org/abs/2111.10882v1
- Date: Sun, 21 Nov 2021 19:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 17:15:25.098066
- Title: Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video
- Title(参考訳): 映像からのバイノーラル音声生成のための幾何学的マルチタスク学習
- Authors: Rishabh Garg, Ruohan Gao, Kristen Grauman
- Abstract要約: 本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
- 参考スコア(独自算出の注目度): 94.42811508809994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binaural audio provides human listeners with an immersive spatial sound
experience, but most existing videos lack binaural audio recordings. We propose
an audio spatialization method that draws on visual information in videos to
convert their monaural (single-channel) audio to binaural audio. Whereas
existing approaches leverage visual features extracted directly from video
frames, our approach explicitly disentangles the geometric cues present in the
visual stream to guide the learning process. In particular, we develop a
multi-task framework that learns geometry-aware features for binaural audio
generation by accounting for the underlying room impulse response, the visual
stream's coherence with the sound source(s) positions, and the consistency in
geometry of the sounding objects over time. Furthermore, we introduce a new
large video dataset with realistic binaural audio simulated for real-world
scanned environments. On two datasets, we demonstrate the efficacy of our
method, which achieves state-of-the-art results.
- Abstract(参考訳): バイノーラルオーディオは、人間のリスナーに没入的な空間音体験を提供するが、既存のビデオにはバイノーラル録音がない。
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声をバイノーラルオーディオに変換する音響空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離して学習プロセスを導く。
特に, 室内インパルス応答, 音源位置とのコヒーレンス, 観測物体の形状の経時的一貫性を考慮し, バイノーラル音声生成のための幾何認識特徴を学習するマルチタスクフレームワークを開発した。
さらに,実環境においてリアルタイムなバイノーラルオーディオをシミュレートした大規模ビデオデータセットを提案する。
2つのデータセットにおいて,本手法の有効性を実証し,最新の結果を得た。
関連論文リスト
- CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation [21.58489462776634]
バイノーラルオーディオ生成(BAG)は、視覚的プロンプトを用いてモノラルオーディオをステレオオーディオに変換することを目的としている。
現在のモデルは、部屋の環境に過度に適合し、きめ細かい空間的詳細を失うリスクがある。
本稿では,音声-視覚条件正規化層を取り入れた新しい音声-視覚生成モデルを提案する。
論文 参考訳(メタデータ) (2025-01-06T06:04:21Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。