論文の概要: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization
- arxiv url: http://arxiv.org/abs/2210.05060v1
- Date: Tue, 11 Oct 2022 00:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:04:01.241621
- Title: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization
- Title(参考訳): ave-clip:audioclipベースのマルチウィンドウ時間変換器
- Authors: Tanvir Mahmud, Diana Marculescu
- Abstract要約: AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
- 参考スコア(独自算出の注目度): 14.103742565510387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An audio-visual event (AVE) is denoted by the correspondence of the visual
and auditory signals in a video segment. Precise localization of the AVEs is
very challenging since it demands effective multi-modal feature correspondence
to ground the short and long range temporal interactions. Existing approaches
struggle in capturing the different scales of multi-modal interaction due to
ineffective multi-modal training strategies. To overcome this limitation, we
introduce AVE-CLIP, a novel framework that integrates the AudioCLIP pre-trained
on large-scale audio-visual data with a multi-window temporal transformer to
effectively operate on different temporal scales of video frames. Our
contributions are three-fold: (1) We introduce a multi-stage training framework
to incorporate AudioCLIP pre-trained with audio-image pairs into the AVE
localization task on video frames through contrastive fine-tuning, effective
mean video feature extraction, and multi-scale training phases. (2) We propose
a multi-domain attention mechanism that operates on both temporal and feature
domains over varying timescales to fuse the local and global feature
variations. (3) We introduce a temporal refining scheme with event-guided
attention followed by a simple-yet-effective post processing step to handle
significant variations of the background over diverse events. Our method
achieves state-of-the-art performance on the publicly available AVE dataset
with 5.9% mean accuracy improvement which proves its superiority over existing
approaches.
- Abstract(参考訳): 音声視覚イベント(AVE)は、映像セグメント内の視覚信号と聴覚信号との対応によって表される。
AVEの正確なローカライゼーションは、短い時間的相互作用と長い時間的相互作用を基礎として、効果的なマルチモーダル特徴対応を要求するため、非常に難しい。
既存のアプローチは、非効率なマルチモーダルトレーニング戦略のために、異なるスケールのマルチモーダルインタラクションを取得するのに苦労している。
AVE-CLIPは,大規模オーディオ・ビジュアルデータに事前学習されたAudioCLIPとマルチウィンドウ・テンポラル・トランスフォーマを統合し,ビデオフレームの異なる時間スケールで効果的に操作する新しいフレームワークである。
コントリビューションは3つある: (1) コントラスト的な微調整, 有効平均映像特徴抽出, マルチスケールトレーニングフェーズを通じて, オーディオイメージペアで事前訓練されたオーディオCLIPをビデオフレーム上のAVEローカライゼーションタスクに組み込むための多段階トレーニングフレームワークを導入する。
2) 時間領域と特徴領域の両方で動作するマルチドメインアテンション機構を提案し, 局所的特徴とグローバルな特徴を融合させる。
3)多種多様なイベントに対する背景の大幅な変動に対処するために,イベントガイド付き注意を伴う時間的精錬スキームと,簡単なイエット効率のポスト処理ステップを導入する。
提案手法は,既存のアプローチよりも優れていることを示す平均精度5.9%のAVEデータセット上での最先端性能を実現する。
関連論文リスト
- Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition [28.49695567630899]
ウェアラブルカメラの普及により、ファーストパーソンの活動認識が急速に伸びている。
本稿では,動作,音声,外観機能を統合することにより,ドメインの一般化を改善するフレームワークを提案する。
提案手法はARGO1Mデータセット上での最先端のパフォーマンスを実現し,目に見えないシナリオや場所を効果的に一般化する。
論文 参考訳(メタデータ) (2024-09-15T04:43:00Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所性対応対応補正 (LCC) を非モーダル特徴に適用する。
さらにクロスモーダル・ダイナミック・パーセプション・レイヤ(CDP)をクロスモーダル・フィーチャー・ピラミッドでカスタマイズし、音声視覚イベントの局所的時間パターンを理解する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Multi-Resolution Audio-Visual Feature Fusion for Temporal Action
Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。
MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文 参考訳(メタデータ) (2023-10-05T10:54:33Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。