論文の概要: Unsupervised Pre-training for Temporal Action Localization Tasks
- arxiv url: http://arxiv.org/abs/2203.13609v1
- Date: Fri, 25 Mar 2022 12:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:26:44.371185
- Title: Unsupervised Pre-training for Temporal Action Localization Tasks
- Title(参考訳): 時間的行動ローカライゼーションタスクのための教師なし事前学習
- Authors: Can Zhang, Tianyu Yang, Junwu Weng, Meng Cao, Jue Wang, Yuexian Zou
- Abstract要約: 本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
- 参考スコア(独自算出の注目度): 76.01985780118422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video representation learning has made remarkable achievements
in recent years. However, most existing methods are designed and optimized for
video classification. These pre-trained models can be sub-optimal for temporal
localization tasks due to the inherent discrepancy between video-level
classification and clip-level localization. To bridge this gap, we make the
first attempt to propose a self-supervised pretext task, coined as Pseudo
Action Localization (PAL) to Unsupervisedly Pre-train feature encoders for
Temporal Action Localization tasks (UP-TAL). Specifically, we first randomly
select temporal regions, each of which contains multiple clips, from one video
as pseudo actions and then paste them onto different temporal positions of the
other two videos. The pretext task is to align the features of pasted pseudo
action regions from two synthetic videos and maximize the agreement between
them. Compared to the existing unsupervised video representation learning
approaches, our PAL adapts better to downstream TAL tasks by introducing a
temporal equivariant contrastive learning paradigm in a temporally dense and
scale-aware manner. Extensive experiments show that PAL can utilize large-scale
unlabeled video data to significantly boost the performance of existing TAL
methods. Our codes and models will be made publicly available at
https://github.com/zhang-can/UP-TAL.
- Abstract(参考訳): 教師なしビデオ表現学習は近年顕著な成果を上げている。
しかし,既存の手法のほとんどはビデオ分類に最適化されている。
これらの事前学習モデルは、ビデオレベルの分類とクリップレベルのローカライゼーションの相違により、時間的ローカライゼーションタスクに準最適である。
このギャップを埋めるために、我々はPseudo Action Localization (PAL) と呼ばれる自己教師型プリテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なしプリトレイン機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
既存の教師なしビデオ表現学習手法と比較すると,時間的同変コントラスト学習パラダイムを時間的に密集し,スケールアウェアな方法で導入することで,下流のtalタスクに適応する。
大規模な実験により,PALは大規模未ラベル映像データを用いて既存のTAL法の性能を大幅に向上させることができることがわかった。
私たちのコードとモデルはhttps://github.com/zhang-can/UP-TAL.comで公開されます。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。