論文の概要: Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer
- arxiv url: http://arxiv.org/abs/2504.14860v1
- Date: Mon, 21 Apr 2025 05:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:34:02.492602
- Title: Bridge the Gap: From Weak to Full Supervision for Temporal Action Localization with PseudoFormer
- Title(参考訳): ブリッジ・ザ・ギャップ: PseudoFormer を用いた時間的行動局所化のための弱視から完全なスーパービジョンへ
- Authors: Ziyi Liu, Yangcen Liu,
- Abstract要約: 弱いWTALと完全に教師されたWTALのギャップを埋める新しいフレームワークであるPseudoFormerを提案する。
RickerFusionは、予測されたすべてのアクション提案をグローバルな共有スペースにマッピングし、より良い品質で擬似ラベルを生成する。
弱いブランチと異なる事前のスニペットレベルのラベルとプロポーザルレベルのラベルを使って、フルブランチで回帰ベースのモデルをトレーニングします。
PseudoFormer は THUMOS14 と ActivityNet1.3 の2つのベンチマークで最先端の WTAL を達成している。
- 参考スコア(独自算出の注目度): 13.153366072673915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised Temporal Action Localization (WTAL) has achieved notable success but still suffers from a lack of temporal annotations, leading to a performance and framework gap compared with fully-supervised methods. While recent approaches employ pseudo labels for training, three key challenges: generating high-quality pseudo labels, making full use of different priors, and optimizing training methods with noisy labels remain unresolved. Due to these perspectives, we propose PseudoFormer, a novel two-branch framework that bridges the gap between weakly and fully-supervised Temporal Action Localization (TAL). We first introduce RickerFusion, which maps all predicted action proposals to a global shared space to generate pseudo labels with better quality. Subsequently, we leverage both snippet-level and proposal-level labels with different priors from the weak branch to train the regression-based model in the full branch. Finally, the uncertainty mask and iterative refinement mechanism are applied for training with noisy pseudo labels. PseudoFormer achieves state-of-the-art WTAL results on the two commonly used benchmarks, THUMOS14 and ActivityNet1.3. Besides, extensive ablation studies demonstrate the contribution of each component of our method.
- Abstract(参考訳): WTAL(Wakly-supervised Temporal Action Localization)は、非常に成功したが、それでも時間的アノテーションの欠如に悩まされており、完全に教師された方法と比較してパフォーマンスとフレームワークのギャップが生じる。
最近のアプローチでは擬似ラベルをトレーニングに用いているが、高品質な擬似ラベルの生成、異なる事前の活用、ノイズラベルを用いた学習方法の最適化という3つの大きな課題は未解決のままである。
これらの観点から、弱い時間的行動局在(TAL)と完全に監督された時間的行動局在(TAL)のギャップを埋める新しい2分岐フレームワークであるPseudoFormerを提案する。
我々はまず、予測されたすべてのアクション提案をグローバルな共有空間にマッピングして、より良い品質で擬似ラベルを生成するRickerFusionを紹介した。
続いて、弱いブランチと異なる優先順位を持つスニペットレベルのラベルとプロポーザルレベルのラベルを利用して、フルブランチで回帰ベースのモデルをトレーニングします。
最後に、ノイズのある擬似ラベルを用いたトレーニングに不確実性マスクと反復改善機構を適用した。
PseudoFormer は THUMOS14 と ActivityNet1.3 の2つのベンチマークで最先端の WTAL を達成している。
さらに, 広範囲にわたるアブレーション研究は, 提案法の各成分の寄与を実証している。
関連論文リスト
- Rethinking Pseudo-Label Guided Learning for Weakly Supervised Temporal Action Localization from the Perspective of Noise Correction [33.89781814072881]
擬似ラベルのノイズは,完全教師付き検出ヘッドの学習に干渉すると考えられる。
雑音ラベルにおける潜在的な有用な信号をすべて活用するための2段階雑音ラベル学習戦略を導入する。
本モデルでは,検出精度と推定速度において,従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-19T17:31:40Z) - Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization [11.010846827099936]
本稿では,FuSTALフレームワークを構築するための簡易かつ効率的な擬似ラベル品質向上機構を提案する。
FuSTALはTHUMOS'14で平均50.8%のmAPを達成し、これまでのベストメソッドを1.2%上回った。
論文 参考訳(メタデータ) (2024-07-12T03:53:55Z) - Distilling Vision-Language Pre-training to Collaborate with
Weakly-Supervised Temporal Action Localization [77.19173283023012]
微弱に監督された時間的アクションローカライゼーションは、カテゴリラベルのみによるアクションインスタンスの検出と分類を学ぶ。
ほとんどの方法は、アクションローカライゼーションのためのビデオ特徴を生成するために、オフザシェルフ分類ベース事前訓練(CBP)を広く採用している。
論文 参考訳(メタデータ) (2022-12-19T10:02:50Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - Learning Action Completeness from Points for Weakly-supervised Temporal
Action Localization [15.603643098270409]
本研究では,各アクションインスタンスに1フレームのラベルを付けるだけで,時間間隔の動作をローカライズする問題に対処する。
本稿では,モデルに対する完全性ガイダンスを提供するために,高密度な擬似ラベルを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T04:54:39Z) - Refining Pseudo Labels with Clustering Consensus over Generations for
Unsupervised Object Re-identification [84.72303377833732]
教師なしのオブジェクト再識別は、アノテーションなしでオブジェクト検索のための識別表現を学習することを目的としている。
本稿では,クラスタリングコンセンサスを用いた連続学習世代間の擬似ラベル類似性を推定し,時間的に伝播およびアンサンブルされた擬似ラベルを用いた洗練された擬似ラベルを提案する。
提案する擬似ラベル精錬戦略は単純だが有効であり、既存のクラスタリングに基づく教師なし再同定手法にシームレスに統合することができる。
論文 参考訳(メタデータ) (2021-06-11T02:42:42Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。