論文の概要: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization
- arxiv url: http://arxiv.org/abs/2210.05060v1
- Date: Tue, 11 Oct 2022 00:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:04:01.241621
- Title: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization
- Title(参考訳): ave-clip:audioclipベースのマルチウィンドウ時間変換器
- Authors: Tanvir Mahmud, Diana Marculescu
- Abstract要約: AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
- 参考スコア(独自算出の注目度): 14.103742565510387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An audio-visual event (AVE) is denoted by the correspondence of the visual
and auditory signals in a video segment. Precise localization of the AVEs is
very challenging since it demands effective multi-modal feature correspondence
to ground the short and long range temporal interactions. Existing approaches
struggle in capturing the different scales of multi-modal interaction due to
ineffective multi-modal training strategies. To overcome this limitation, we
introduce AVE-CLIP, a novel framework that integrates the AudioCLIP pre-trained
on large-scale audio-visual data with a multi-window temporal transformer to
effectively operate on different temporal scales of video frames. Our
contributions are three-fold: (1) We introduce a multi-stage training framework
to incorporate AudioCLIP pre-trained with audio-image pairs into the AVE
localization task on video frames through contrastive fine-tuning, effective
mean video feature extraction, and multi-scale training phases. (2) We propose
a multi-domain attention mechanism that operates on both temporal and feature
domains over varying timescales to fuse the local and global feature
variations. (3) We introduce a temporal refining scheme with event-guided
attention followed by a simple-yet-effective post processing step to handle
significant variations of the background over diverse events. Our method
achieves state-of-the-art performance on the publicly available AVE dataset
with 5.9% mean accuracy improvement which proves its superiority over existing
approaches.
- Abstract(参考訳): 音声視覚イベント(AVE)は、映像セグメント内の視覚信号と聴覚信号との対応によって表される。
AVEの正確なローカライゼーションは、短い時間的相互作用と長い時間的相互作用を基礎として、効果的なマルチモーダル特徴対応を要求するため、非常に難しい。
既存のアプローチは、非効率なマルチモーダルトレーニング戦略のために、異なるスケールのマルチモーダルインタラクションを取得するのに苦労している。
AVE-CLIPは,大規模オーディオ・ビジュアルデータに事前学習されたAudioCLIPとマルチウィンドウ・テンポラル・トランスフォーマを統合し,ビデオフレームの異なる時間スケールで効果的に操作する新しいフレームワークである。
コントリビューションは3つある: (1) コントラスト的な微調整, 有効平均映像特徴抽出, マルチスケールトレーニングフェーズを通じて, オーディオイメージペアで事前訓練されたオーディオCLIPをビデオフレーム上のAVEローカライゼーションタスクに組み込むための多段階トレーニングフレームワークを導入する。
2) 時間領域と特徴領域の両方で動作するマルチドメインアテンション機構を提案し, 局所的特徴とグローバルな特徴を融合させる。
3)多種多様なイベントに対する背景の大幅な変動に対処するために,イベントガイド付き注意を伴う時間的精錬スキームと,簡単なイエット効率のポスト処理ステップを導入する。
提案手法は,既存のアプローチよりも優れていることを示す平均精度5.9%のAVEデータセット上での最先端性能を実現する。
関連論文リスト
- Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。