論文の概要: Self-Supervised Learning from Automatically Separated Sound Scenes
- arxiv url: http://arxiv.org/abs/2105.02132v1
- Date: Wed, 5 May 2021 15:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 14:46:10.762473
- Title: Self-Supervised Learning from Automatically Separated Sound Scenes
- Title(参考訳): 自動分離音場からの自己教師付き学習
- Authors: Eduardo Fonseca, Aren Jansen, Daniel P. W. Ellis, Scott Wisdom, Marco
Tagliasacchi, John R. Hershey, Manoj Plakal, Shawn Hershey, R. Channing
Moore, Xavier Serra
- Abstract要約: 本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
- 参考スコア(独自算出の注目度): 38.71803524843168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world sound scenes consist of time-varying collections of sound sources,
each generating characteristic sound events that are mixed together in audio
recordings. The association of these constituent sound events with their
mixture and each other is semantically constrained: the sound scene contains
the union of source classes and not all classes naturally co-occur. With this
motivation, this paper explores the use of unsupervised automatic sound
separation to decompose unlabeled sound scenes into multiple
semantically-linked views for use in self-supervised contrastive learning. We
find that learning to associate input mixtures with their automatically
separated outputs yields stronger representations than past approaches that use
the mixtures alone. Further, we discover that optimal source separation is not
required for successful contrastive learning by demonstrating that a range of
separation system convergence states all lead to useful and often complementary
example transformations. Our best system incorporates these unsupervised
separation models into a single augmentation front-end and jointly optimizes
similarity maximization and coincidence prediction objectives across the views.
The result is an unsupervised audio representation that rivals state-of-the-art
alternatives on the established shallow AudioSet classification benchmark.
- Abstract(参考訳): 実世界のサウンドシーンは、音源の時間変化のコレクションで構成され、それぞれがオーディオ録音で混在する特徴的なサウンドイベントを生成する。
これらの構成音イベントと混合音の関連は意味的に制約され、サウンドシーンはソースクラスの結合を含み、全てのクラスが自然に共起するわけではない。
そこで本研究では,教師なし自動音声分離を用いて,教師なし音声シーンを複数の意味的リンクビューに分解し,自己教師なしコントラスト学習に活用する。
入力混合物と自動的に分離された出力とを関連付ける学習は、混合物のみを使用する過去のアプローチよりも強い表現をもたらす。
さらに,多様な分離系収束状態がすべて有用かつしばしば相補的な例変換につながることを示すことにより,コントラスト学習を成功させるために最適なソース分離は必要ではないことを見出した。
我々の最善のシステムは、これらの教師なし分離モデルを単一の拡張フロントエンドに組み込んで、ビュー全体の類似度最大化と一致予測目標を共同で最適化する。
その結果、教師なしオーディオ表現が、確立された浅いAudioSet分類ベンチマークにおける最先端の代替と競合する。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - Separating Invisible Sounds Toward Universal Audiovisual Scene-Aware
Sound Separation [51.06562260845748]
本稿では,新しい「視覚的シーン・アウェア分離」フレームワークを紹介する。
目に見えない音のセマンティクスと、シーンインフォームド・分離のためのセパレータを含む。
AVSA-Sepは、ジョイントトレーニングとクロスモーダルアライメントにより、両方のサウンドタイプをうまく分離する。
論文 参考訳(メタデータ) (2023-10-18T05:03:57Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Foreground-Background Ambient Sound Scene Separation [0.0]
本稿では,特徴量正規化方式と,背景統計を収集する予備的ネットワークを備えたディープラーニングに基づく分離フレームワークを提案する。
我々は様々な信号対雑音比で、見知らぬ音のクラスを混合した広範囲な実験を行った。
論文 参考訳(メタデータ) (2020-05-11T06:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。