論文の概要: Improving On-Screen Sound Separation for Open Domain Videos with
Audio-Visual Self-attention
- arxiv url: http://arxiv.org/abs/2106.09669v1
- Date: Thu, 17 Jun 2021 17:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 17:58:28.408193
- Title: Improving On-Screen Sound Separation for Open Domain Videos with
Audio-Visual Self-attention
- Title(参考訳): セルフアテンションによるオープンドメイン映像のオンスクリーン音源分離の改善
- Authors: Efthymios Tzinis, Scott Wisdom, Tal Remez, John R. Hershey
- Abstract要約: 本稿では,現在最先端の音声教師付きオンスクリーン音声分離システムについて紹介する。
音を別々に学習し、それを画面上のオブジェクトに関連付けることができる。
- 参考スコア(独自算出の注目度): 28.90333738784927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a state-of-the-art audio-visual on-screen sound separation
system which is capable of learning to separate sounds and associate them with
on-screen objects by looking at in-the-wild videos. We identify limitations of
previous work on audiovisual on-screen sound separation, including the
simplicity and coarse resolution of spatio-temporal attention, and poor
convergence of the audio separation model. Our proposed model addresses these
issues using cross-modal and self-attention modules that capture audio-visual
dependencies at a finer resolution over time, and by unsupervised pre-training
of audio separation model. These improvements allow the model to generalize to
a much wider set of unseen videos. For evaluation and semi-supervised training,
we collected human annotations of on-screen audio from a large database of
in-the-wild videos (YFCC100M). Our results show marked improvements in
on-screen separation performance, in more general conditions than previous
methods.
- Abstract(参考訳): そこで本研究では,映像から音を分離し,その音と映像を関連付けることのできる,最先端の映像映像音声分離システムを提案する。
本研究では、時空間的注意の単純さと粗さの解消、音声分離モデルの収束性の低下など、従来の音声視覚的オンスクリーン音源分離の限界を識別する。
提案手法では,より詳細な解像度で視聴覚依存性をキャプチャするクロスモーダルおよびセルフアテンションモジュールと,教師なし事前学習による音声分離モデルを用いて,これらの問題に対処する。
これらの改良により、モデルはより広い範囲の未公開ビデオに一般化できる。
評価と半教師付き学習のために,大規模映像データベース(yfcc100m)から画面上の音声の人間アノテーションを収集した。
以上の結果より,画面上分離性能は従来法よりも向上した。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - AudioScopeV2: Audio-Visual Attention Architectures for Calibrated
Open-Domain On-Screen Sound Separation [27.594350714812435]
本稿では,現在最先端のユニバーサル・オーディオ・ヴィジュアル・オン・スクリーン音声分離システムであるAudioV2を紹介する。
音を別々に学習し、それを画面上のオブジェクトに関連付けることができる。
論文 参考訳(メタデータ) (2022-07-20T18:44:01Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。