論文の概要: AudioScopeV2: Audio-Visual Attention Architectures for Calibrated
Open-Domain On-Screen Sound Separation
- arxiv url: http://arxiv.org/abs/2207.10141v1
- Date: Wed, 20 Jul 2022 18:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:48:59.950768
- Title: AudioScopeV2: Audio-Visual Attention Architectures for Calibrated
Open-Domain On-Screen Sound Separation
- Title(参考訳): AudioScopeV2:オープンドメインオンスクリーン音の校正のためのオーディオ・ビジュアルアテンションアーキテクチャ
- Authors: Efthymios Tzinis, Scott Wisdom, Tal Remez, John R. Hershey
- Abstract要約: 本稿では,現在最先端のユニバーサル・オーディオ・ヴィジュアル・オン・スクリーン音声分離システムであるAudioV2を紹介する。
音を別々に学習し、それを画面上のオブジェクトに関連付けることができる。
- 参考スコア(独自算出の注目度): 27.594350714812435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioScopeV2, a state-of-the-art universal audio-visual
on-screen sound separation system which is capable of learning to separate
sounds and associate them with on-screen objects by looking at in-the-wild
videos. We identify several limitations of previous work on audio-visual
on-screen sound separation, including the coarse resolution of spatio-temporal
attention, poor convergence of the audio separation model, limited variety in
training and evaluation data, and failure to account for the trade off between
preservation of on-screen sounds and suppression of off-screen sounds. We
provide solutions to all of these issues. Our proposed cross-modal and
self-attention network architectures capture audio-visual dependencies at a
finer resolution over time, and we also propose efficient separable variants
that are capable of scaling to longer videos without sacrificing much
performance. We also find that pre-training the separation model only on audio
greatly improves results. For training and evaluation, we collected new human
annotations of onscreen sounds from a large database of in-the-wild videos
(YFCC100M). This new dataset is more diverse and challenging. Finally, we
propose a calibration procedure that allows exact tuning of on-screen
reconstruction versus off-screen suppression, which greatly simplifies
comparing performance between models with different operating points. Overall,
our experimental results show marked improvements in on-screen separation
performance under much more general conditions than previous methods with
minimal additional computational complexity.
- Abstract(参考訳): そこで本研究では,音声の分離を学習し,実写映像を視聴することで映像上のオブジェクトと関連付けることのできる,最先端のユニバーサルオーディオ・ビジュアル・オン・スクリーン音声分離システムであるaudioscopev2を紹介する。
本研究では,空間的注意の粗さの解消,音声分離モデルの収束性の低さ,訓練および評価データの多様性の制限,スクリーン上の音の保存とオフスクリーン音の抑制とのトレードオフを考慮できないことなど,従来の音声-視覚的音分離の限界について述べる。
これらの問題に対するソリューションを提供しています。
提案するクロスモーダル・セルフアテンションネットワークアーキテクチャは、時間とともに細かな解像度でオーディオ-視覚的依存関係をキャプチャし、多くのパフォーマンスを犠牲にすることなく、より長いビデオにスケールできる効率的な分離可能な変種も提案する。
また,音声のみの分離モデルの事前学習により,結果が大幅に向上することがわかった。
訓練と評価のために,実写ビデオ(yfcc100m)の大規模データベースから,画面上の音声に対する新たな人間的アノテーションを収集した。
この新しいデータセットは、より多様で難しい。
最後に,画面上再構成とオフスクリーン抑圧の正確な調整を可能にするキャリブレーション手法を提案する。
実験の結果,計算量が少ない従来の方法に比べて,画面上での分離性能が大幅に向上した。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Improving On-Screen Sound Separation for Open Domain Videos with
Audio-Visual Self-attention [28.90333738784927]
本稿では,現在最先端の音声教師付きオンスクリーン音声分離システムについて紹介する。
音を別々に学習し、それを画面上のオブジェクトに関連付けることができる。
論文 参考訳(メタデータ) (2021-06-17T17:23:44Z) - Repetitive Activity Counting by Sight and Sound [110.36526333035907]
本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
論文 参考訳(メタデータ) (2021-03-24T11:15:33Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。