論文の概要: Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding
- arxiv url: http://arxiv.org/abs/2306.10684v1
- Date: Mon, 19 Jun 2023 03:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:16:50.689270
- Title: Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding
- Title(参考訳): オーディオ・ビジュアル予測符号化による音源分離
- Authors: Zengjie Song and Zhaoxiang Zhang
- Abstract要約: 視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
- 参考スコア(独自算出の注目度): 57.08832099075793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The framework of visually-guided sound source separation generally consists
of three parts: visual feature extraction, multimodal feature fusion, and sound
signal processing. An ongoing trend in this field has been to tailor involved
visual feature extractor for informative visual guidance and separately devise
module for feature fusion, while utilizing U-Net by default for sound analysis.
However, such divide-and-conquer paradigm is parameter inefficient and,
meanwhile, may obtain suboptimal performance as jointly optimizing and
harmonizing various model components is challengeable. By contrast, this paper
presents a novel approach, dubbed audio-visual predictive coding (AVPC), to
tackle this task in a parameter efficient and more effective manner. The
network of AVPC features a simple ResNet-based video analysis network for
deriving semantic visual features, and a predictive coding-based sound
separation network that can extract audio features, fuse multimodal
information, and predict sound separation masks in the same architecture. By
iteratively minimizing the prediction error between features, AVPC integrates
audio and visual information recursively, leading to progressively improved
performance. In addition, we develop a valid self-supervised learning strategy
for AVPC via co-predicting two audio-visual representations of the same sound
source. Extensive evaluations demonstrate that AVPC outperforms several
baselines in separating musical instrument sounds, while reducing the model
size significantly. Code is available at:
https://github.com/zjsong/Audio-Visual-Predictive-Coding.
- Abstract(参考訳): 視覚誘導音源分離の枠組みは一般的に視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分から構成される。
この分野で現在進行中のトレンドは、インフォメーションビジュアルガイダンスのための視覚特徴抽出器と、機能融合のためのモジュールを別々に考案し、音響分析にデフォルトでu-netを使用していることである。
しかし、この分割・対数パラダイムはパラメータ非効率であり、また、様々なモデルコンポーネントの協調最適化と調和が課題となるため、最適以下の性能が得られる可能性がある。
対照的に,本論文では,この課題を効率的に,より効果的に処理するための新しい手法として,avpc(audio-visual prediction coding)を提案する。
avpcのネットワークは、セマンティックな視覚的特徴を導出するシンプルなresnetベースのビデオ分析ネットワークと、オーディオ特徴を抽出し、マルチモーダル情報を融合し、同じアーキテクチャで音声分離マスクを予測できる予測符号化ベースの音声分離ネットワークを備えている。
特徴間の予測誤差を反復的に最小化することにより、AVPCは音声と視覚情報を再帰的に統合し、徐々に性能が向上する。
また,同じ音源の2つの視聴覚表現を共同予測することで,avpcの有効な自己教師付き学習戦略を開発した。
AVPCは楽器の音を分離する際のいくつかのベースラインよりも優れており、モデルサイズは大幅に小さくなっている。
コードは、https://github.com/zjsong/Audio-Visual-Predictive-Coding.comで入手できる。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。