論文の概要: Towards Open-Vocabulary Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2411.11278v1
- Date: Mon, 18 Nov 2024 04:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:21.474631
- Title: Towards Open-Vocabulary Audio-Visual Event Localization
- Title(参考訳): オープン・ボキャブラリ・オーディオ・ビジュアル・イベント・ローカライゼーションに向けて
- Authors: Jinxing Zhou, Dan Guo, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang,
- Abstract要約: 本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
- 参考スコア(独自算出の注目度): 59.23161248808759
- License:
- Abstract: The Audio-Visual Event Localization (AVEL) task aims to temporally locate and classify video events that are both audible and visible. Most research in this field assumes a closed-set setting, which restricts these models' ability to handle test data containing event categories absent (unseen) during training. Recently, a few studies have explored AVEL in an open-set setting, enabling the recognition of unseen events as ``unknown'', but without providing category-specific semantics. In this paper, we advance the field by introducing the Open-Vocabulary Audio-Visual Event Localization (OV-AVEL) problem, which requires localizing audio-visual events and predicting explicit categories for both seen and unseen data at inference. To address this new task, we propose the OV-AVEBench dataset, comprising 24,800 videos across 67 real-life audio-visual scenes (seen:unseen = 46:21), each with manual segment-level annotation. We also establish three evaluation metrics for this task. Moreover, we investigate two baseline approaches, one training-free and one using a further fine-tuning paradigm. Specifically, we utilize the unified multimodal space from the pretrained ImageBind model to extract audio, visual, and textual (event classes) features. The training-free baseline then determines predictions by comparing the consistency of audio-text and visual-text feature similarities. The fine-tuning baseline incorporates lightweight temporal layers to encode temporal relations within the audio and visual modalities, using OV-AVEBench training data for model fine-tuning. We evaluate these baselines on the proposed OV-AVEBench dataset and discuss potential directions for future work in this new field.
- Abstract(参考訳): AVEL(Audio-Visual Event Localization)タスクは、可聴性と可視性の両方を持つビデオイベントの時間的特定と分類を目的としている。
この分野でのほとんどの研究は、トレーニング中に欠落した(見えない)イベントカテゴリを含むテストデータを扱うこれらのモデルの能力を制限したクローズドセットの設定を前提としている。
近年、いくつかの研究がオープンセットでAVELを探索し、未知の事象を '`unknown'' と認識できるが、カテゴリー固有の意味論は提供していない。
本稿では、音声視覚イベントの局所化と、推測時に見つからないデータの両方に対する明示的なカテゴリ予測を必要とするOpen-Vocabulary Audio-Visual Event Localization (OV-AVEL)問題を導入することにより、この分野を前進させる。
この課題に対処するため,OV-AVEBenchデータセットを提案する。このデータセットは,67のリアルタイム映像シーン(例:unseen = 46:21)に24,800本のビデオで構成され,それぞれが手動セグメントレベルのアノテーションを備える。
また,この課題に対する評価基準を3つ確立した。
さらに,2つのベースラインアプローチについて検討する。
具体的には、事前訓練されたImageBindモデルから統合されたマルチモーダル空間を利用して、音声、視覚、テキスト(イベントクラス)の特徴を抽出する。
トレーニング不要のベースラインは、オーディオテキストと視覚テキストの特徴的類似性の一貫性を比較して予測を決定する。
ファインチューニングベースラインは、OV-AVEBenchトレーニングデータを用いて、オーディオと視覚のモーダル内の時間的関係を符号化するために、軽量な時間的階層を組み込んでいる。
提案するOV-AVEBenchデータセットをベースラインとして評価し,今後の研究の方向性について検討する。
関連論文リスト
- CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Open-Vocabulary Audio-Visual Semantic Segmentation [12.330521982730836]
AVSSタスクをアノテートされたラベル空間を超えたオープンワールドシナリオに拡張する。
1)音声と視覚の融合を行い、全ての潜在的な聴覚オブジェクトを見つけるための普遍的な音源定位モジュールと,2)大規模事前学習型視覚言語モデルからの事前知識の助けを借りてカテゴリを予測するオープン語彙分類モジュールと,からなる,最初のオープン語彙型AVSSフレームワークであるOV-AVSSを提案する。
論文 参考訳(メタデータ) (2024-07-31T16:14:09Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Cross-Modal learning for Audio-Visual Video Parsing [30.331280948237428]
本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。
AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2021-04-03T07:07:21Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。