論文の概要: V-SlowFast Network for Efficient Visual Sound Separation
- arxiv url: http://arxiv.org/abs/2109.08867v2
- Date: Tue, 21 Sep 2021 04:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 10:50:51.136219
- Title: V-SlowFast Network for Efficient Visual Sound Separation
- Title(参考訳): 効率的な視覚音分離のためのV-SlowFastネットワーク
- Authors: Lingyu Zhu and Esa Rahtu
- Abstract要約: 時間分解能の異なる分光図の視覚的音像分離について検討する。
我々は,視覚フレーム,スロースペクトログラム,高速スペクトログラムで動作する,軽量で効率的な3ストリームフレームワーク V-SlowFast を提案する。
- 参考スコア(独自算出の注目度): 16.447597767676655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to perform visual sound separation: i) we
study visual sound separation on spectrograms of different temporal
resolutions; ii) we propose a new light yet efficient three-stream framework
V-SlowFast that operates on Visual frame, Slow spectrogram, and Fast
spectrogram. The Slow spectrogram captures the coarse temporal resolution while
the Fast spectrogram contains the fine-grained temporal resolution; iii) we
introduce two contrastive objectives to encourage the network to learn
discriminative visual features for separating sounds; iv) we propose an
audio-visual global attention module for audio and visual feature fusion; v)
the introduced V-SlowFast model outperforms previous state-of-the-art in
single-frame based visual sound separation on small- and large-scale datasets:
MUSIC-21, AVE, and VGG-Sound. We also propose a small V-SlowFast architecture
variant, which achieves 74.2% reduction in the number of model parameters and
81.4% reduction in GMACs compared to the previous multi-stage models. Project
page: https://ly-zhu.github.io/V-SlowFast
- Abstract(参考訳): 本論文の目的は,視聴覚分離を行うことである。
一 時間分解能の異なる分光図における視覚的音分離の研究。
2)視覚フレーム,スロースペクトログラム,高速スペクトログラムで動作する,軽量で効率的な3ストリームフレームワーク V-SlowFast を提案する。
Slow Spectrogramは粗い時間分解能を捉え、Fast Spectrogramは微細な時間分解能を含む。
三 音声分離のための識別的視覚特徴の学習をネットワークに促すための2つの対比目的について紹介する。
iv)音声・視覚機能融合のための視聴覚グローバルアテンションモジュールを提案する。
v) 導入したV-SlowFastモデルは,MUSIC-21,AVV,VGG-Soundといった小規模・大規模データセット上で,単一フレームによる視覚的音源分離において,先行技術よりも優れていた。
また,従来のマルチステージモデルと比較してモデルパラメータの74.2%削減,GMACの81.4%削減を実現した小型なV-SlowFastアーキテクチャ変種を提案する。
プロジェクトページ: https://ly-zhu.github.io/V-SlowFast
関連論文リスト
- SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Taming Visually Guided Sound Generation [21.397106355171946]
近年の視覚誘発音声生成の進歩は,短音,低忠実音,一級音のサンプリングに基づいている。
本稿では,オープンドメインビデオから一組のフレームで誘導される高忠実度音を,単一のGPUで再生するよりも少ない時間で生成できる単一モデルを提案する。
論文 参考訳(メタデータ) (2021-10-17T11:14:00Z) - Fast-Slow Transformer for Visually Grounding Speech [15.68151998164009]
本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。
FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。
論文 参考訳(メタデータ) (2021-09-16T18:45:45Z) - Slow-Fast Auditory Streams For Audio Recognition [101.7520667593296]
分離可能な畳み込みと多レベル側線接続を持つ低速な聴覚ストリームを学習する。
本稿では,VGG-SoundとEPIC-KITCHENS-100という2つの異なるデータセットに対する2ストリーム提案の重要性を示す。
論文 参考訳(メタデータ) (2021-03-05T07:51:21Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。