論文の概要: Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds
- arxiv url: http://arxiv.org/abs/2011.01143v2
- Date: Sun, 30 May 2021 03:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:19:18.687733
- Title: Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds
- Title(参考訳): オーディオスコープによる野生への侵入:オンスクリーン音の教師なしオーディオ・ビジュアル分離
- Authors: Efthymios Tzinis, Scott Wisdom, Aren Jansen, Shawn Hershey, Tal Remez,
Daniel P. W. Ellis, John R. Hershey
- Abstract要約: 本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 33.4237979175049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in deep learning has enabled many advances in sound
separation and visual scene understanding. However, extracting sound sources
which are apparent in natural videos remains an open problem. In this work, we
present AudioScope, a novel audio-visual sound separation framework that can be
trained without supervision to isolate on-screen sound sources from real
in-the-wild videos. Prior audio-visual separation work assumed artificial
limitations on the domain of sound classes (e.g., to speech or music),
constrained the number of sources, and required strong sound separation or
visual segmentation labels. AudioScope overcomes these limitations, operating
on an open domain of sounds, with variable numbers of sources, and without
labels or prior visual segmentation. The training procedure for AudioScope uses
mixture invariant training (MixIT) to separate synthetic mixtures of mixtures
(MoMs) into individual sources, where noisy labels for mixtures are provided by
an unsupervised audio-visual coincidence model. Using the noisy labels, along
with attention between video and audio features, AudioScope learns to identify
audio-visual similarity and to suppress off-screen sounds. We demonstrate the
effectiveness of our approach using a dataset of video clips extracted from
open-domain YFCC100m video data. This dataset contains a wide diversity of
sound classes recorded in unconstrained conditions, making the application of
previous methods unsuitable. For evaluation and semi-supervised experiments, we
collected human labels for presence of on-screen and off-screen sounds on a
small subset of clips.
- Abstract(参考訳): ディープラーニングの最近の進歩は、音の分離と視覚的なシーン理解に多くの進歩をもたらした。
しかし、自然ビデオで明らかな音源を抽出することは未解決の問題である。
本研究は,実映像から画面上の音源を分離するための教師なしのトレーニングが可能な,新しい音声視覚分離フレームワークであるAudioScopeを提案する。
以前の視聴覚分離作業では、音声クラス(例えば、音声や音楽)の領域に人工的な制限を仮定し、音源数を制限し、強い音声分離や視覚分割ラベルを必要とした。
AudioScopeはこれらの制限を克服し、音のオープンドメインで動作し、様々なソース数を持ち、ラベルや事前の視覚的セグメンテーションを持たない。
本発明のAudioScopeトレーニング手順は、混合不変訓練(MixIT)を用いて、混合混合物(MoM)の合成混合物を個別のソースに分離する。
ノイズの多いラベルと、ビデオとオーディオ機能の間の注意を使って、AudioScopeは、オーディオと視覚の類似性を識別し、オフスクリーン音を抑えることを学ぶ。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
このデータセットは、制約のない条件下で記録された幅広い音響クラスを含み、従来の手法の適用は不適当である。
評価と半教師付き実験のために,クリップの小さなサブセットにオンスクリーン音とオフスクリーン音の存在を示すラベルを収集した。
関連論文リスト
- Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware
Sound Separation [51.06562260845748]
本稿では,新しい「視覚的シーン・アウェア分離」フレームワークを紹介する。
目に見えない音のセマンティクスと、シーンインフォームド・分離のためのセパレータを含む。
AVSA-Sepは、ジョイントトレーニングとクロスモーダルアライメントにより、両方のサウンドタイプをうまく分離する。
論文 参考訳(メタデータ) (2023-10-18T05:03:57Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。