Fugu-MT 論文翻訳(概要): The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023

論文の概要: The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023

arxiv url: http://arxiv.org/abs/2407.02318v1
Date: Mon, 1 Jul 2024 12:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 15:06:12.754539
Title: The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023
Title（参考訳）: ICCV 1st Perception Test Challenge 2023 における時間音像定位課題の解法
Authors: Yurui Huang, Yang Yang, Shou Chen, Xiangyu Wu, Qingguo Chen, Jianfeng Lu,
Abstract要約: 視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
参考スコア（独自算出の注目度）: 11.64675515432159
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a solution for improving the quality of temporal sound localization. We employ a multimodal fusion approach to combine visual and audio features. High-quality visual features are extracted using a state-of-the-art self-supervised pre-training network, resulting in efficient video feature representations. At the same time, audio features serve as complementary information to help the model better localize the start and end of sounds. The fused features are trained in a multi-scale Transformer for training. In the final test dataset, we achieved a mean average precision (mAP) of 0.33, obtaining the second-best performance in this track.
Abstract（参考訳）: 本稿では,時間的音像定位精度向上のためのソリューションを提案する。視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。最先端の自己教師型事前学習ネットワークを用いて高品質な視覚特徴を抽出し,効率的な映像特徴表現を実現する。同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。融合した機能は、トレーニング用のマルチスケールトランスフォーマーでトレーニングされる。最終テストデータセットでは平均平均mAP(mAP)を0.33で達成し,このトラックで2番目に高い性能を得た。

関連論文リスト

Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文参考訳（メタデータ） (2024-10-29T17:28:43Z)
Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024 [3.4947857354806633]
本稿では,時間的音像定位作業の改善手法を提案する。事前に定義されたサウンドクラスのセットに従って、ビデオで発生する音イベントをローカライズし、分類する。私たちのアプローチは最終テストで最初に0.4925のスコアでランク付けします。
論文参考訳（メタデータ） (2024-09-29T07:28:21Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文参考訳（メタデータ） (2023-01-04T05:36:56Z)
A study on joint modeling and data augmentation of multi-modalities for audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文参考訳（メタデータ） (2022-03-07T07:29:55Z)
TASK3 DCASE2021 Challenge: Sound event localization and detection using squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文参考訳（メタデータ） (2021-07-30T11:34:15Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。