論文の概要: CoLA: Weakly-Supervised Temporal Action Localization with Snippet
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2103.16392v1
- Date: Tue, 30 Mar 2021 14:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:51:30.591375
- Title: CoLA: Weakly-Supervised Temporal Action Localization with Snippet
Contrastive Learning
- Title(参考訳): CoLA: Snippet Contrastive Learningによる時間的行動の局所化
- Authors: Can Zhang, Meng Cao, Dongming Yang, Jie Chen, Yuexian Zou
- Abstract要約: 弱いトリミングの時間的アクションローカライゼーションは、ビデオレベルのラベルのみを持つ教師なしビデオ内のアクションをローカライズすることを目的としている。
ここでは、単一のスニペットの不正な問題が発生する: "ハード"スニペットは分類するには曖昧すぎる。
比較による学習は,これらの難解なスニペットの識別に役立ち,コントラスト学習を行動の局所化に活用することを提案する。
- 参考スコア(独自算出の注目度): 40.65483058890177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization (WS-TAL) aims to localize
actions in untrimmed videos with only video-level labels. Most existing models
follow the "localization by classification" procedure: locate temporal regions
contributing most to the video-level classification. Generally, they process
each snippet (or frame) individually and thus overlook the fruitful temporal
context relation. Here arises the single snippet cheating issue: "hard"
snippets are too vague to be classified. In this paper, we argue that learning
by comparing helps identify these hard snippets and we propose to utilize
snippet Contrastive learning to Localize Actions, CoLA for short. Specifically,
we propose a Snippet Contrast (SniCo) Loss to refine the hard snippet
representation in feature space, which guides the network to perceive precise
temporal boundaries and avoid the temporal interval interruption. Besides,
since it is infeasible to access frame-level annotations, we introduce a Hard
Snippet Mining algorithm to locate the potential hard snippets. Substantial
analyses verify that this mining strategy efficaciously captures the hard
snippets and SniCo Loss leads to more informative feature representation.
Extensive experiments show that CoLA achieves state-of-the-art results on
THUMOS'14 and ActivityNet v1.2 datasets.
- Abstract(参考訳): weakly-supervised temporal action localization (ws-tal) は、ビデオレベルのラベルのみを持つ未トリミングビデオのアクションをローカライズすることを目的としている。
既存のモデルの多くは「分類による局所化」手順に従っており、ビデオレベルの分類に最も寄与する時間領域を特定する。
一般に、各スニペット(またはフレーム)を個別に処理し、実りある時間的文脈関係を見渡す。
ここでは、単一のスニペットの不正な問題が発生する: "ハード"スニペットは分類するには曖昧すぎる。
本稿では,比較による学習がこれらのハードスニペットの同定に役立ち,コントラスト学習を短時間でCoLA(Localize Actions)に活用することを提案する。
具体的には,Snippet Contrast (SniCo) Lossを提案し,特徴空間におけるハードスニペット表現を洗練させる。
また,フレームレベルのアノテーションにアクセスできないため,潜在的なハードスニペットを見つけるためにハードスニペットマイニングアルゴリズムを導入する。
物質分析は、この採掘戦略がハードスニペットを効果的にキャプチャし、SniCoロスがより情報的な特徴表現をもたらすことを検証している。
大規模な実験によると、CoLAはTHUMOS'14とActivityNet v1.2データセットで最先端の結果を達成する。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Reinforcement Learning for Weakly Supervised Temporal Grounding of
Natural Language in Untrimmed Videos [134.78406021194985]
我々は、時間境界のない粗いビデオレベルの言語記述アノテーションにのみアクセス可能な、このタスクの弱教師付き設定に焦点を当てる。
本稿では,時間境界を段階的に洗練する過程を指導するために,強化学習を利用したemphBoundary Adaptive Refinement(BAR)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-18T03:32:47Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。