論文の概要: Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2412.19418v1
- Date: Fri, 27 Dec 2024 03:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:49.368607
- Title: Generalized Uncertainty-Based Evidential Fusion with Hybrid Multi-Head Attention for Weak-Supervised Temporal Action Localization
- Title(参考訳): 重み付き時間的行動局所化のためのハイブリッドマルチヘッドアテンションを用いた一般化不確実性に基づく証拠融合
- Authors: Yuanpeng He, Lijian Li, Tianxiang Zhan, Wenpin Jiao, Chi-Man Pun,
- Abstract要約: 弱教師付き時間的アクションローカライゼーション(WS-TAL)は、完全なアクションインスタンスをローカライズし、それらをビデオレベルのラベルに分類するタスクである。
動作背景のあいまいさは、主にアグリゲーションと動作内変動に起因するバックグラウンドノイズによって引き起こされるものであり、既存のWS-TAL手法にとって重要な課題である。
本稿では,ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化された不確実性に基づく明らかな融合(GUEF)モジュールを導入し,この問題に対処する。
- 参考スコア(独自算出の注目度): 28.005080560540133
- License:
- Abstract: Weakly supervised temporal action localization (WS-TAL) is a task of targeting at localizing complete action instances and categorizing them with video-level labels. Action-background ambiguity, primarily caused by background noise resulting from aggregation and intra-action variation, is a significant challenge for existing WS-TAL methods. In this paper, we introduce a hybrid multi-head attention (HMHA) module and generalized uncertainty-based evidential fusion (GUEF) module to address the problem. The proposed HMHA effectively enhances RGB and optical flow features by filtering redundant information and adjusting their feature distribution to better align with the WS-TAL task. Additionally, the proposed GUEF adaptively eliminates the interference of background noise by fusing snippet-level evidences to refine uncertainty measurement and select superior foreground feature information, which enables the model to concentrate on integral action instances to achieve better action localization and classification performance. Experimental results conducted on the THUMOS14 dataset demonstrate that our method outperforms state-of-the-art methods. Our code is available in \url{https://github.com/heyuanpengpku/GUEF/tree/main}.
- Abstract(参考訳): 弱教師付き時間的アクションローカライゼーション(WS-TAL)は、完全なアクションインスタンスをローカライズし、それらをビデオレベルのラベルに分類するタスクである。
動作背景のあいまいさは、主にアグリゲーションと動作内変動に起因するバックグラウンドノイズによって引き起こされるものであり、既存のWS-TAL手法にとって重要な課題である。
本稿では,ハイブリッドマルチヘッドアテンション(HMHA)モジュールと一般化された不確実性に基づく顕在的融合(GUEF)モジュールを導入し,この問題に対処する。
提案したHMHAは、冗長な情報をフィルタリングし、WS-TALタスクに適合するように特徴分布を調整することにより、RGBおよび光フロー特性を効果的に向上する。
さらに、GUEFは、スニペットレベルの証拠を融合して不確実性測定を洗練させ、優れた前景特徴情報を選択することにより、背景雑音の干渉を適応的に排除し、モデルが統合アクションインスタンスに集中して、より優れたアクションローカライゼーションと分類性能を実現することができる。
THUMOS14データセットで行った実験結果から,本手法が最先端の手法より優れていることが示された。
我々のコードは \url{https://github.com/heyuanpengpku/GUEF/tree/main} で利用可能です。
関連論文リスト
- Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Sparse Global Matching for Video Frame Interpolation with Large Motion [20.49084881829404]
大きな動きはビデオフレーム補間(VFI)タスクにおいて重要な課題となる。
既存の手法は、しばしば制限された受容場によって制約されるため、大きな動きを持つシナリオを扱う際の準最適性能をもたらす。
我々はVFIのための新しいパイプラインを導入し、グローバルレベルの情報を効果的に統合し、大きな動きに関連する問題を緩和する。
論文 参考訳(メタデータ) (2024-04-10T11:06:29Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - AMSP-UOD: When Vortex Convolution and Stochastic Perturbation Meet
Underwater Object Detection [40.532331552038485]
AMSP-UOD(Amplitude-Modulated Perturbation and Vortex Convolutional Network)を提案する。
AMSP-UODは複雑な水中環境における非理想的撮像因子が検出精度に与える影響に対処する。
提案手法は,既存の最先端手法よりも精度とノイズ免疫の点で優れる。
論文 参考訳(メタデータ) (2023-08-23T05:03:45Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Towards Robust Adaptive Object Detection under Noisy Annotations [40.25050610617893]
既存のメソッドでは、ソースドメインラベルは完全にクリーンだが、大規模なデータセットにはインスタンスの曖昧さのためにエラーが発生しやすいアノテーションが含まれることが多い。
本稿では,この問題に対処するためのノイズ遅延伝達可能性探索フレームワークを提案する。
NLTEは、60%の破損したアノテーションの下でmAPを8.4%改善し、クリーンソースデータセットでのトレーニングの理想的な上限にアプローチする。
論文 参考訳(メタデータ) (2022-04-06T07:02:37Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。