Fugu-MT 論文翻訳(概要): AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization

論文の概要: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization

arxiv url: http://arxiv.org/abs/2210.05060v1
Date: Tue, 11 Oct 2022 00:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 16:04:01.241621
Title: AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio Visual Event Localization
Title（参考訳）: ave-clip:audioclipベースのマルチウィンドウ時間変換器
Authors: Tanvir Mahmud, Diana Marculescu
Abstract要約: AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
参考スコア（独自算出の注目度）: 14.103742565510387
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: An audio-visual event (AVE) is denoted by the correspondence of the visual and auditory signals in a video segment. Precise localization of the AVEs is very challenging since it demands effective multi-modal feature correspondence to ground the short and long range temporal interactions. Existing approaches struggle in capturing the different scales of multi-modal interaction due to ineffective multi-modal training strategies. To overcome this limitation, we introduce AVE-CLIP, a novel framework that integrates the AudioCLIP pre-trained on large-scale audio-visual data with a multi-window temporal transformer to effectively operate on different temporal scales of video frames. Our contributions are three-fold: (1) We introduce a multi-stage training framework to incorporate AudioCLIP pre-trained with audio-image pairs into the AVE localization task on video frames through contrastive fine-tuning, effective mean video feature extraction, and multi-scale training phases. (2) We propose a multi-domain attention mechanism that operates on both temporal and feature domains over varying timescales to fuse the local and global feature variations. (3) We introduce a temporal refining scheme with event-guided attention followed by a simple-yet-effective post processing step to handle significant variations of the background over diverse events. Our method achieves state-of-the-art performance on the publicly available AVE dataset with 5.9% mean accuracy improvement which proves its superiority over existing approaches.
Abstract（参考訳）: 音声視覚イベント(AVE)は、映像セグメント内の視覚信号と聴覚信号との対応によって表される。 AVEの正確なローカライゼーションは、短い時間的相互作用と長い時間的相互作用を基礎として、効果的なマルチモーダル特徴対応を要求するため、非常に難しい。既存のアプローチは、非効率なマルチモーダルトレーニング戦略のために、異なるスケールのマルチモーダルインタラクションを取得するのに苦労している。 AVE-CLIPは,大規模オーディオ・ビジュアルデータに事前学習されたAudioCLIPとマルチウィンドウ・テンポラル・トランスフォーマを統合し,ビデオフレームの異なる時間スケールで効果的に操作する新しいフレームワークである。コントリビューションは3つある: (1) コントラスト的な微調整, 有効平均映像特徴抽出, マルチスケールトレーニングフェーズを通じて, オーディオイメージペアで事前訓練されたオーディオCLIPをビデオフレーム上のAVEローカライゼーションタスクに組み込むための多段階トレーニングフレームワークを導入する。 2) 時間領域と特徴領域の両方で動作するマルチドメインアテンション機構を提案し, 局所的特徴とグローバルな特徴を融合させる。 3)多種多様なイベントに対する背景の大幅な変動に対処するために,イベントガイド付き注意を伴う時間的精錬スキームと,簡単なイエット効率のポスト処理ステップを導入する。提案手法は,既存のアプローチよりも優れていることを示す平均精度5.9%のAVEデータセット上での最先端性能を実現する。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文参考訳（メタデータ） (2025-03-17T20:06:48Z)
Integrating Audio Narrations to Strengthen Domain Generalization in Multimodal First-Person Action Recognition [28.49695567630899]
ウェアラブルカメラの普及により、ファーストパーソンの活動認識が急速に伸びている。本稿では,動作,音声,外観機能を統合することにより,ドメインの一般化を改善するフレームワークを提案する。提案手法はARGO1Mデータセット上での最先端のパフォーマンスを実現し,目に見えないシナリオや場所を効果的に一般化する。
論文参考訳（メタデータ） (2024-09-15T04:43:00Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。 AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-08-04T07:48:12Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
Multi-Resolution Audio-Visual Feature Fusion for Temporal Action Localization [8.633822294082943]
本稿ではMRAV-FF(Multi-Resolution Audio-Visual Feature Fusion)を紹介する。 MRAV-FFは、異なる時間分解能間でオーディオ視覚データをマージする革新的な手法である。
論文参考訳（メタデータ） (2023-10-05T10:54:33Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文参考訳（メタデータ） (2023-03-12T06:57:01Z)
End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:10Z)
Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。本手法は分類問題と回帰問題の両方に有効であることを示す。また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-19T13:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。