論文の概要: Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2203.16800v1
- Date: Thu, 31 Mar 2022 05:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:51:49.075081
- Title: Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization
- Title(参考訳): 弱教師付き時間行動定位のためのきめ細かい時間的コントラスト学習
- Authors: Junyu Gao, Mengyuan Chen, Changsheng Xu
- Abstract要約: 本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 87.47977407022492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We target at the task of weakly-supervised action localization (WSAL), where
only video-level action labels are available during model training. Despite the
recent progress, existing methods mainly embrace a
localization-by-classification paradigm and overlook the fruitful fine-grained
temporal distinctions between video sequences, thus suffering from severe
ambiguity in classification learning and classification-to-localization
adaption. This paper argues that learning by contextually comparing
sequence-to-sequence distinctions offers an essential inductive bias in WSAL
and helps identify coherent action instances. Specifically, under a
differentiable dynamic programming formulation, two complementary contrastive
objectives are designed, including Fine-grained Sequence Distance (FSD)
contrasting and Longest Common Subsequence (LCS) contrasting, where the first
one considers the relations of various action/background proposals by using
match, insert, and delete operators and the second one mines the longest common
subsequences between two videos. Both contrasting modules can enhance each
other and jointly enjoy the merits of discriminative action-background
separation and alleviated task gap between classification and localization.
Extensive experiments show that our method achieves state-of-the-art
performance on two popular benchmarks. Our code is available at
https://github.com/MengyuanChen21/CVPR2022-FTCL.
- Abstract(参考訳): モデルトレーニング中にビデオレベルのアクションラベルのみが使用可能なwsal(weakly-supervised action localization)のタスクを目標としています。
近年の進歩にもかかわらず、既存の手法は主にローカライズ・バイ・クラシゼーションのパラダイムを採用しており、ビデオシーケンス間の実りある細かい時間的違いを見落としており、分類学習や分類からローカライズへの適応において厳しい曖昧さに苦しめられている。
本稿では,シーケンスとシーケンスの区別を文脈的に比較することで,wsalにおける本質的帰納的バイアスが得られ,コヒーレントなアクションインスタンスの識別に寄与することを示す。
具体的には、微分可能な動的プログラミングの定式化において、2つの相補的なコントラスト目標(fsd)が設計され、1つはマッチ、インサート、削除演算子を用いて様々なアクション/バックグランドの提案の関係を考慮し、もう1つは2つのビデオ間で最長の共通部分列をマイニングする。
対照的なモジュールは互いに強化し、識別的なアクションバックグラウンド分離のメリットと、分類とローカライゼーションの間のタスクギャップの緩和を共同で享受できる。
大規模な実験により,2つのベンチマークで最先端の性能が得られた。
私たちのコードはhttps://github.com/mengyuanchen21/cvpr2022-ftclで利用可能です。
関連論文リスト
- Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition [57.17966905865054]
実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T20:08:06Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。