論文の概要: Distilling Vision-Language Pre-training to Collaborate with
Weakly-Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2212.09335v1
- Date: Mon, 19 Dec 2022 10:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:40:53.687063
- Title: Distilling Vision-Language Pre-training to Collaborate with
Weakly-Supervised Temporal Action Localization
- Title(参考訳): 弱教師付き時間行動定位と協調する視覚言語前訓練
- Authors: Chen Ju, Kunhao Zheng, Jinxiang Liu, Peisen Zhao, Ya Zhang, Jianlong
Chang, Yanfeng Wang, Qi Tian
- Abstract要約: 微弱に監督された時間的アクションローカライゼーションは、カテゴリラベルのみによるアクションインスタンスの検出と分類を学ぶ。
ほとんどの方法は、アクションローカライゼーションのためのビデオ特徴を生成するために、オフザシェルフ分類ベース事前訓練(CBP)を広く採用している。
- 参考スコア(独自算出の注目度): 77.19173283023012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization (WTAL) learns to detect and
classify action instances with only category labels. Most methods widely adopt
the off-the-shelf Classification-Based Pre-training (CBP) to generate video
features for action localization. However, the different optimization
objectives between classification and localization, make temporally localized
results suffer from the serious incomplete issue. To tackle this issue without
additional annotations, this paper considers to distill free action knowledge
from Vision-Language Pre-training (VLP), since we surprisingly observe that the
localization results of vanilla VLP have an over-complete issue, which is just
complementary to the CBP results. To fuse such complementarity, we propose a
novel distillation-collaboration framework with two branches acting as CBP and
VLP respectively. The framework is optimized through a dual-branch alternate
training strategy. Specifically, during the B step, we distill the confident
background pseudo-labels from the CBP branch; while during the F step, the
confident foreground pseudo-labels are distilled from the VLP branch. And as a
result, the dual-branch complementarity is effectively fused to promote a
strong alliance. Extensive experiments and ablation studies on THUMOS14 and
ActivityNet1.2 reveal that our method significantly outperforms
state-of-the-art methods.
- Abstract(参考訳): WTAL(Wakly-supervised temporal action Localization)は、カテゴリラベルのみによるアクションインスタンスの検出と分類を学習する。
ほとんどの手法では、市販の分類に基づく事前訓練(cbp)を広く採用し、アクションローカライズのためのビデオ特徴を生成する。
しかし、分類と局所化の異なる最適化目標により、時間的局所化の結果は深刻な不完全な問題に悩まされる。
そこで本研究では,バニラVLPの局所化結果に過剰な問題があり,CBPの結果を補完するものであるとして,VLP(Vision-Language Pre-Training)からフリーアクション知識を抽出することを検討する。
このような相補性を融合させるために, CBPとVLPの2つの枝がそれぞれ作用する新しい蒸留協力フレームワークを提案する。
このフレームワークは、デュアルブランチの代替トレーニング戦略によって最適化されている。
具体的には,Bステップにおいて,CBPブランチから自信ある背景の擬似ラベルを蒸留し,Fステップでは,VLPブランチから自信ある前景の擬似ラベルを蒸留する。
その結果、二重ブランチの相補性が効果的に融合され、強力な同盟が促進される。
THUMOS14およびActivityNet1.2の広範囲な実験とアブレーション研究により,本手法が最先端手法を著しく上回っていることが明らかとなった。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Adaptive Mutual Supervision for Weakly-Supervised Temporal Action
Localization [92.96802448718388]
時間的行動ローカライゼーションのための適応的相互監視フレームワーク(AMS)を導入する。
提案手法は最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-04-06T08:31:10Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。