論文の概要: Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds
- arxiv url: http://arxiv.org/abs/2503.13693v2
- Date: Fri, 21 Mar 2025 17:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 11:33:46.148692
- Title: Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds
- Title(参考訳): 未知に適応する:動的閾値を用いたトレーニング不要のオーディオ・ビジュアルイベント知覚
- Authors: Eitan Shaar, Ariel Shaulov, Gal Chechik, Lior Wolf,
- Abstract要約: 本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。
我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。
また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
- 参考スコア(独自算出の注目度): 72.83227312675174
- License:
- Abstract: In the domain of audio-visual event perception, which focuses on the temporal localization and classification of events across distinct modalities (audio and visual), existing approaches are constrained by the vocabulary available in their training data. This limitation significantly impedes their capacity to generalize to novel, unseen event categories. Furthermore, the annotation process for this task is labor-intensive, requiring extensive manual labeling across modalities and temporal segments, limiting the scalability of current methods. Current state-of-the-art models ignore the shifts in event distributions over time, reducing their ability to adjust to changing video dynamics. Additionally, previous methods rely on late fusion to combine audio and visual information. While straightforward, this approach results in a significant loss of multimodal interactions. To address these challenges, we propose Audio-Visual Adaptive Video Analysis ($\text{AV}^2\text{A}$), a model-agnostic approach that requires no further training and integrates a score-level fusion technique to retain richer multimodal interactions. $\text{AV}^2\text{A}$ also includes a within-video label shift algorithm, leveraging input video data and predictions from prior frames to dynamically adjust event distributions for subsequent frames. Moreover, we present the first training-free, open-vocabulary baseline for audio-visual event perception, demonstrating that $\text{AV}^2\text{A}$ achieves substantial improvements over naive training-free baselines. We demonstrate the effectiveness of $\text{AV}^2\text{A}$ on both zero-shot and weakly-supervised state-of-the-art methods, achieving notable improvements in performance metrics over existing approaches.
- Abstract(参考訳): 音声・視覚的事象知覚の分野では、異なるモード(音声と視覚)にわたる事象の時間的局所化と分類に焦点を当て、既存のアプローチはトレーニングデータで利用可能な語彙によって制約される。
この制限は、新しい、目に見えないイベントカテゴリに一般化する能力を著しく損なう。
さらに、このタスクのアノテーションプロセスは労働集約的であり、現在のメソッドのスケーラビリティを制限するため、モダリティや時間セグメントにまたがる広範囲な手動ラベリングを必要とする。
現在の最先端モデルは、時間とともにイベント分布の変化を無視し、ビデオのダイナミクスの変化に合わせて調整する能力を減らす。
さらに、従来の手法は音声と視覚情報を組み合わせるためにレイトフュージョンに依存していた。
このアプローチは単純ではあるが、マルチモーダル相互作用が著しく失われる。
これらの課題に対処するため,よりリッチなマルチモーダルインタラクションを維持するためのスコアレベルの融合技術を統合するモデルに依存しないアプローチであるAudio-Visual Adaptive Video Analysis ("\text{AV}^2\text{A}$")を提案する。
$\text{AV}^2\text{A}$はまた、入力ビデオデータと事前フレームからの予測を利用して、その後のフレームのイベント分布を動的に調整する、ビデオ内ラベルシフトアルゴリズムを含んでいる。
さらに,音声・視覚的事象知覚のための初となる学習自由なオープン語彙ベースラインを提示し,学習自由ベースラインに対して$\text{AV}^2\text{A}$が大幅に改善されることを実証した。
ゼロショット法と弱教師付き手法の両方に対する$\text{AV}^2\text{A}$の有効性を実証し,既存の手法よりも優れたパフォーマンス指標を実現する。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。