論文の概要: Visual Scene Graphs for Audio Source Separation
- arxiv url: http://arxiv.org/abs/2109.11955v1
- Date: Fri, 24 Sep 2021 13:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:27:17.428577
- Title: Visual Scene Graphs for Audio Source Separation
- Title(参考訳): 音源分離のための視覚シーングラフ
- Authors: Moitreya Chatterjee and Jonathan Le Roux and Narendra Ahuja and Anoop
Cherian
- Abstract要約: 視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
- 参考スコア(独自算出の注目度): 65.47212419514761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State-of-the-art approaches for visually-guided audio source separation
typically assume sources that have characteristic sounds, such as musical
instruments. These approaches often ignore the visual context of these sound
sources or avoid modeling object interactions that may be useful to better
characterize the sources, especially when the same object class may produce
varied sounds from distinct interactions. To address this challenging problem,
we propose Audio Visual Scene Graph Segmenter (AVSGS), a novel deep learning
model that embeds the visual structure of the scene as a graph and segments
this graph into subgraphs, each subgraph being associated with a unique sound
obtained by co-segmenting the audio spectrogram. At its core, AVSGS uses a
recursive neural network that emits mutually-orthogonal sub-graph embeddings of
the visual graph using multi-head attention. These embeddings are used for
conditioning an audio encoder-decoder towards source separation. Our pipeline
is trained end-to-end via a self-supervised task consisting of separating audio
sources using the visual graph from artificially mixed sounds. In this paper,
we also introduce an "in the wild'' video dataset for sound source separation
that contains multiple non-musical sources, which we call Audio Separation in
the Wild (ASIW). This dataset is adapted from the AudioCaps dataset, and
provides a challenging, natural, and daily-life setting for source separation.
Thorough experiments on the proposed ASIW and the standard MUSIC datasets
demonstrate state-of-the-art sound separation performance of our method against
recent prior approaches.
- Abstract(参考訳): 視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
これらのアプローチは、しばしばこれらの音源の視覚的な文脈を無視したり、特に同じオブジェクトクラスが異なる相互作用から様々な音を生成する場合、音源をよりよく特徴付けるのに役立つオブジェクトインタラクションのモデリングを避ける。
この課題に対処するために,映像の視覚構造をグラフとして埋め込んだ新しいディープラーニングモデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
AVSGSのコアとなるのは再帰的ニューラルネットワークで、マルチヘッドアテンションを使用して視覚グラフの相互直交部分グラフ埋め込みを出力する。
これらの埋め込みは、ソース分離に向けたオーディオエンコーダデコーダの条件付けに使用される。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
本稿では,複数の音源を含む音源分離のための"in the wild"ビデオデータセットについても紹介し,これをASIW(Audio separation in the Wild)と呼ぶ。
このデータセットはaudiocapsデータセットから適合しており、ソース分離のための挑戦的で自然で日常的な設定を提供する。
提案するasiwと標準音楽データセットに関する徹底的な実験により,最近の先行手法に対する音の分離性能が実証された。
関連論文リスト
- Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。