論文の概要: Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation
- arxiv url: http://arxiv.org/abs/2210.16472v1
- Date: Sat, 29 Oct 2022 02:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:44:35.035933
- Title: Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation
- Title(参考訳): 音源分離のためのシーングラフを用いた視聴覚ダイナミクスの学習
- Authors: Moitreya Chatterjee and Narendra Ahuja and Anoop Cherian
- Abstract要約: 本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 36.38300120482868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There exists an unequivocal distinction between the sound produced by a
static source and that produced by a moving one, especially when the source
moves towards or away from the microphone. In this paper, we propose to use
this connection between audio and visual dynamics for solving two challenging
tasks simultaneously, namely: (i) separating audio sources from a mixture using
visual cues, and (ii) predicting the 3D visual motion of a sounding source
using its separated audio. Towards this end, we present Audio Separator and
Motion Predictor (ASMP) -- a deep learning framework that leverages the 3D
structure of the scene and the motion of sound sources for better audio source
separation. At the heart of ASMP is a 2.5D scene graph capturing various
objects in the video and their pseudo-3D spatial proximities. This graph is
constructed by registering together 2.5D monocular depth predictions from the
2D video frames and associating the 2.5D scene regions with the outputs of an
object detector applied on those frames. The ASMP task is then mathematically
modeled as the joint problem of: (i) recursively segmenting the 2.5D scene
graph into several sub-graphs, each associated with a constituent sound in the
input audio mixture (which is then separated) and (ii) predicting the 3D
motions of the corresponding sound sources from the separated audio. To
empirically evaluate ASMP, we present experiments on two challenging
audio-visual datasets, viz. Audio Separation in the Wild (ASIW) and Audio
Visual Event (AVE). Our results demonstrate that ASMP achieves a clear
improvement in source separation quality, outperforming prior works on both
datasets, while also estimating the direction of motion of the sound sources
better than other methods.
- Abstract(参考訳): 静的音源が生成する音と、移動音源が生成する音との間には、特に音源がマイクロフォンの方向や遠方へ移動するときの明確な区別がある。
本稿では,この2つの課題を同時に解決するために,音声と視覚ダイナミクスの接続について提案する。
(i)視覚手がかりを用いて音源を混合物から分離すること。
(2)分離した音声を用いて音源の3次元視覚運動を予測する。
この目的に向けて,シーンの3次元構造と音源の動きを活用し,より良い音源分離を実現するディープラーニングフレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPの中央には2.5Dのシーングラフがあり、ビデオ内の様々な物体と擬似3D空間の近さを捉えている。
このグラフは、2Dビデオフレームから2.5Dの単眼深度予測を登録し、これらのフレームに印加された物体検出器の出力と2.5Dシーン領域を関連付けることによって構築される。
ASMPタスクは、以下の共同問題として数学的にモデル化される。
(i)2.5dシーングラフを複数のサブグラフに再帰的に分割し、それぞれが入力オーディオ混合物(後に分離)の構成音と関連付けられ、
(ii)分離音声から対応する音源の3次元動きを予測すること。
ASMPを実証的に評価するために,2つの難解な音声視覚データセットであるvizについて実験を行った。
野生での音声分離(asiw)と音声ビジュアルイベント(ave)。
以上の結果から,ASMPは音源分離の精度を向上し,音源の運動方向を他の方法よりも精度良く推定すると共に,両データセットの先行処理よりも優れた性能が得られることが示された。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition [26.828874753756523]
本研究では,統合型音声視覚学習フレームワーク(OneAVM)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの実験では、3つのタスクすべてに対してOneAVMの有効性が示されている。
論文 参考訳(メタデータ) (2023-05-30T23:53:12Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。