論文の概要: Visual Scene Graphs for Audio Source Separation
- arxiv url: http://arxiv.org/abs/2109.11955v1
- Date: Fri, 24 Sep 2021 13:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:27:17.428577
- Title: Visual Scene Graphs for Audio Source Separation
- Title(参考訳): 音源分離のための視覚シーングラフ
- Authors: Moitreya Chatterjee and Jonathan Le Roux and Narendra Ahuja and Anoop
Cherian
- Abstract要約: 視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
- 参考スコア(独自算出の注目度): 65.47212419514761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art approaches for visually-guided audio source separation
typically assume sources that have characteristic sounds, such as musical
instruments. These approaches often ignore the visual context of these sound
sources or avoid modeling object interactions that may be useful to better
characterize the sources, especially when the same object class may produce
varied sounds from distinct interactions. To address this challenging problem,
we propose Audio Visual Scene Graph Segmenter (AVSGS), a novel deep learning
model that embeds the visual structure of the scene as a graph and segments
this graph into subgraphs, each subgraph being associated with a unique sound
obtained by co-segmenting the audio spectrogram. At its core, AVSGS uses a
recursive neural network that emits mutually-orthogonal sub-graph embeddings of
the visual graph using multi-head attention. These embeddings are used for
conditioning an audio encoder-decoder towards source separation. Our pipeline
is trained end-to-end via a self-supervised task consisting of separating audio
sources using the visual graph from artificially mixed sounds. In this paper,
we also introduce an "in the wild'' video dataset for sound source separation
that contains multiple non-musical sources, which we call Audio Separation in
the Wild (ASIW). This dataset is adapted from the AudioCaps dataset, and
provides a challenging, natural, and daily-life setting for source separation.
Thorough experiments on the proposed ASIW and the standard MUSIC datasets
demonstrate state-of-the-art sound separation performance of our method against
recent prior approaches.
- Abstract(参考訳): 視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
これらのアプローチは、しばしばこれらの音源の視覚的な文脈を無視したり、特に同じオブジェクトクラスが異なる相互作用から様々な音を生成する場合、音源をよりよく特徴付けるのに役立つオブジェクトインタラクションのモデリングを避ける。
この課題に対処するために,映像の視覚構造をグラフとして埋め込んだ新しいディープラーニングモデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
AVSGSのコアとなるのは再帰的ニューラルネットワークで、マルチヘッドアテンションを使用して視覚グラフの相互直交部分グラフ埋め込みを出力する。
これらの埋め込みは、ソース分離に向けたオーディオエンコーダデコーダの条件付けに使用される。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
本稿では,複数の音源を含む音源分離のための"in the wild"ビデオデータセットについても紹介し,これをASIW(Audio separation in the Wild)と呼ぶ。
このデータセットはaudiocapsデータセットから適合しており、ソース分離のための挑戦的で自然で日常的な設定を提供する。
提案するasiwと標準音楽データセットに関する徹底的な実験により,最近の先行手法に対する音の分離性能が実証された。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Hear The Flow: Optical Flow-Based Self-Supervised Visual Sound Source
Localization [11.059590443280726]
明示的なアノテーションを使わずにビデオに音源をローカライズすることを学ぶことは、オーディオ視覚研究の新たな領域である。
ビデオでは、しばしば動きを示す物体が音を発生させる。
本研究では,映像中の光の流れを,音源の局所化に役立てる前兆としてモデル化することで,この特徴を捉えた。
論文 参考訳(メタデータ) (2022-11-06T03:48:45Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。