論文の概要: Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy
- arxiv url: http://arxiv.org/abs/2204.11420v1
- Date: Mon, 25 Apr 2022 03:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:32:54.265453
- Title: Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy
- Title(参考訳): 伝達学習に基づく共同最適化戦略を用いた音声・視覚シーン分類
- Authors: Chengxin Chen, Meng Wang, Pengyuan Zhang
- Abstract要約: AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
- 参考スコア(独自算出の注目度): 26.975596225131824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, audio-visual scene classification (AVSC) has attracted increasing
attention from multidisciplinary communities. Previous studies tended to adopt
a pipeline training strategy, which uses well-trained visual and acoustic
encoders to extract high-level representations (embeddings) first, then
utilizes them to train the audio-visual classifier. In this way, the extracted
embeddings are well suited for uni-modal classifiers, but not necessarily
suited for multi-modal ones. In this paper, we propose a joint training
framework, using the acoustic features and raw images directly as inputs for
the AVSC task. Specifically, we retrieve the bottom layers of pre-trained image
models as visual encoder, and jointly optimize the scene classifier and 1D-CNN
based acoustic encoder during training. We evaluate the approach on the
development dataset of TAU Urban Audio-Visual Scenes 2021. The experimental
results show that our proposed approach achieves significant improvement over
the conventional pipeline training strategy. Moreover, our best single system
outperforms previous state-of-the-art methods, yielding a log loss of 0.1517
and accuracy of 94.59% on the official test fold.
- Abstract(参考訳): 近年,オーディオ視覚シーン分類 (AVSC) が多分野コミュニティから注目を集めている。
以前の研究ではパイプライントレーニング戦略を採用する傾向があり、よく訓練された視覚および音響エンコーダを使用してまずハイレベルな表現(埋め込み)を抽出する。
このように、抽出された埋め込みはユニモーダル分類には適しているが、必ずしもマルチモーダル分類には適していない。
本稿では,AVSCタスクの入力として音響特徴と生画像を直接利用する共同学習フレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
TAU Urban Audio-Visual Scenes 2021の開発データセットの評価を行った。
実験の結果,提案手法は従来のパイプライン訓練手法よりも大幅に改善できることがわかった。
さらに,本システムでは,従来の最先端手法よりも優れており,ログ損失0.1517,オフィシャルテストフォールドの精度94.59%となっている。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Unsupervised Discriminative Learning of Sounds for Audio Event
Classification [43.81789898864507]
ネットワークベースの音声イベント分類は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。
我々は,教師なしモデルの事前トレーニングを音声データのみに限定し,ImageNetの事前トレーニングによるオンパーパフォーマンスを実現する,高速で効果的な代替手段を示す。
論文 参考訳(メタデータ) (2021-05-19T17:42:03Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。