論文の概要: Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification
- arxiv url: http://arxiv.org/abs/2107.13180v1
- Date: Wed, 28 Jul 2021 06:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 21:28:10.008653
- Title: Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification
- Title(参考訳): Squeeze-Excitation Convolutional Recurrent Neural Networks for Audio-Visual Scene Classification
- Authors: Javier Naranjo-Alcazar, Sergi Perez-Castanos, Aaron Lopez-Garcia,
Pedro Zuccarello, Maximo Cobos, Francesc J. Ferri
- Abstract要約: 本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
- 参考スコア(独自算出の注目度): 4.191965713559235
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The use of multiple and semantically correlated sources can provide
complementary information to each other that may not be evident when working
with individual modalities on their own. In this context, multi-modal models
can help producing more accurate and robust predictions in machine learning
tasks where audio-visual data is available. This paper presents a multi-modal
model for automatic scene classification that exploits simultaneously auditory
and visual information. The proposed approach makes use of two separate
networks which are respectively trained in isolation on audio and visual data,
so that each network specializes in a given modality. The visual subnetwork is
a pre-trained VGG16 model followed by a bidiretional recurrent layer, while the
residual audio subnetwork is based on stacked squeeze-excitation convolutional
blocks trained from scratch. After training each subnetwork, the fusion of
information from the audio and visual streams is performed at two different
stages. The early fusion stage combines features resulting from the last
convolutional block of the respective subnetworks at different time steps to
feed a bidirectional recurrent structure. The late fusion stage combines the
output of the early fusion stage with the independent predictions provided by
the two subnetworks, resulting in the final prediction. We evaluate the method
using the recently published TAU Audio-Visual Urban Scenes 2021, which contains
synchronized audio and video recordings from 12 European cities in 10 different
scene classes. The proposed model has been shown to provide an excellent
trade-off between prediction performance (86.5%) and system complexity (15M
parameters) in the evaluation results of the DCASE 2021 Challenge.
- Abstract(参考訳): 多元的および意味的に相関したソースを使用することで、個々のモダリティを自分自身で扱うときに明らかでない相補的な情報を互いに提供することができる。
このコンテキストにおいて、マルチモーダルモデルは、オーディオ視覚データが利用可能な機械学習タスクにおいて、より正確で堅牢な予測を生成するのに役立つ。
本稿では,視覚情報と聴覚情報を同時に活用するマルチモーダルなシーン分類モデルを提案する。
提案手法では,各ネットワークが所定のモダリティを専門とするように,それぞれ音声と視覚データを分離して学習する2つのネットワークを用いる。
ビジュアルサブネットは、事前訓練されたVGG16モデルで、次に入札的再帰層で、残余のオーディオサブネットは、スクラッチから訓練された積み重ねされた圧縮励起畳み込みブロックに基づいている。
各サブネットワークをトレーニングした後、オーディオとビジュアルストリームからの情報の融合を2つの異なるステージで行う。
初期の融合段階は、各サブネットの最後の畳み込みブロックから生じる特徴を異なる時間ステップで組み合わせ、双方向のリカレント構造を供給する。
後期融合段階は、初期の融合段階の出力と2つのサブネットによって提供される独立した予測を組み合わせ、最終的な予測をもたらす。
2021年に発表されたTAU Audio-Visual Urban Scenes 2021は、ヨーロッパ12都市から10の異なるシーンで同時録音された音声と映像を収録する。
提案手法は,DCASE 2021 Challengeの評価結果において,予測性能 (86.5%) とシステム複雑性 (15Mパラメータ) との間に優れたトレードオフをもたらすことが示されている。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Look and Listen: A Multi-modality Late Fusion Approach to Scene
Classification for Autonomous Machines [5.452798072984612]
本研究の新規性は,画像と音声が深層融合の過程において相互に補完するシーン分類への多様性アプローチである。
このアプローチは、16,000のデータオブジェクトの2つの同期およびバランスの取れたデータセットからなる、難しい分類問題に対して実証される。
単一モダリティが異常なデータポイントによって混同される可能性がある状況は、より高次な統合によって修正されていることを示す。
論文 参考訳(メタデータ) (2020-07-11T16:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。