論文の概要: A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification
- arxiv url: http://arxiv.org/abs/2203.04114v1
- Date: Mon, 7 Mar 2022 07:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 16:10:18.755371
- Title: A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification
- Title(参考訳): 音声・視覚シーン分類のための関節モデルとマルチモーダリティデータ拡張に関する研究
- Authors: Qing Wang, Jun Du, Siyuan Zheng, Yunqing Li, Yajian Wang, Yuzhong Wu,
Hu Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui
Lee
- Abstract要約: 音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
- 参考スコア(独自算出の注目度): 64.59834310846516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose two techniques, namely joint modeling and data
augmentation, to improve system performances for audio-visual scene
classification (AVSC). We employ pre-trained networks trained only on image
data sets to extract video embedding; whereas for audio embedding models, we
decide to train them from scratch. We explore different neural network
architectures for joint modeling to effectively combine the video and audio
modalities. Moreover, data augmentation strategies are investigated to increase
audio-visual training set size. For the video modality the effectiveness of
several operations in RandAugment is verified. An audio-video joint mixup
scheme is proposed to further improve AVSC performances. Evaluated on the
development set of TAU Urban Audio Visual Scenes 2021, our final system can
achieve the best accuracy of 94.2% among all single AVSC systems submitted to
DCASE 2021 Task 1b.
- Abstract(参考訳): 本稿では,共同モデリングとデータ拡張という2つの手法を提案し,オーディオ視覚シーン分類(AVSC)のシステム性能を改善する。
画像データセットのみをトレーニングした事前トレーニングネットワークを用いてビデオ埋め込みを抽出するが,音声埋め込みモデルではスクラッチからトレーニングを行うことにした。
我々は,映像と音声を効果的に組み合わせた共同モデリングのために,異なるニューラルネットワークアーキテクチャを探索する。
さらに,データ拡張戦略を検討し,視聴覚訓練セットのサイズを増加させる。
ビデオモダリティでは、ランダウメントにおける複数の操作の有効性が検証される。
avscの性能をさらに向上させるために,音声と映像の混合方式を提案する。
TAU Urban Audio Visual Scenes 2021の開発セットに基づいて、DCASE 2021 Task 1bに送信された全AVSCシステムの中で、最終システムは94.2%の精度を達成できる。
関連論文リスト
- AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。