論文の概要: CLIP-AE: CLIP-assisted Cross-view Audio-Visual Enhancement for Unsupervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2505.23524v1
- Date: Thu, 29 May 2025 15:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.925358
- Title: CLIP-AE: CLIP-assisted Cross-view Audio-Visual Enhancement for Unsupervised Temporal Action Localization
- Title(参考訳): CLIP-AE: Unsupervised Temporal Action LocalizationのためのCLIP-assisted Cross-view Audio-Visual Enhancement
- Authors: Rui Xia, Dan Jiang, Quan Zhang, Ke Zhang, Chun Yuan,
- Abstract要約: Unsupervised temporal action Localization (UTAL) が人気を博している。
1) 事前学習した特徴を高度に識別する領域に過度に焦点をあてること,2) 視覚的モダリティ情報に頼ることによって文脈境界の決定が困難になる,という2つの課題に直面している。
そこで我々は,CLIPを用いたクロスビュー・オーディオヴィジュアル拡張UTAL法を提案する。
- 参考スコア(独自算出の注目度): 53.89574102984098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Action Localization (TAL) has garnered significant attention in information retrieval. Existing supervised or weakly supervised methods heavily rely on labeled temporal boundaries and action categories, which are labor-intensive and time-consuming. Consequently, unsupervised temporal action localization (UTAL) has gained popularity. However, current methods face two main challenges: 1) Classification pre-trained features overly focus on highly discriminative regions; 2) Solely relying on visual modality information makes it difficult to determine contextual boundaries. To address these issues, we propose a CLIP-assisted cross-view audiovisual enhanced UTAL method. Specifically, we introduce visual language pre-training (VLP) and classification pre-training-based collaborative enhancement to avoid excessive focus on highly discriminative regions; we also incorporate audio perception to provide richer contextual boundary information. Finally, we introduce a self-supervised cross-view learning paradigm to achieve multi-view perceptual enhancement without additional annotations. Extensive experiments on two public datasets demonstrate our model's superiority over several state-of-the-art competitors.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)は情報検索において大きな注目を集めている。
既存の監督的あるいは弱い監督的手法は、労働集約的で時間を要する、ラベル付き時間境界と行動カテゴリーに大きく依存している。
その結果、教師なし時間的行動ローカライゼーション(UTAL)が人気を博した。
しかし、現在の方法は2つの大きな課題に直面している。
1) 事前訓練された特徴の分類は、高度に差別的な領域に過度に焦点をあてる。
2)視覚的モダリティ情報に頼ってコンテキスト境界を決定することは困難である。
これらの課題に対処するために,CLIPを用いたクロスビュー・オーディオヴィジュアル拡張UTAL法を提案する。
具体的には、視覚言語事前学習(VLP)と分類事前学習に基づく協調的強化を導入し、高度に識別された領域に過度な注力を避けるとともに、よりリッチな文脈境界情報を提供するために、音声知覚も取り入れた。
最後に,アノテーションを付加せずに多視点の知覚向上を実現するために,自己指導型クロスビュー学習パラダイムを導入する。
2つの公開データセットに対する大規模な実験は、我々のモデルが最先端の競合相手よりも優れていることを示している。
関連論文リスト
- Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。