論文の概要: Weakly Supervised Temporal Action Localization via Representative
Snippet Knowledge Propagation
- arxiv url: http://arxiv.org/abs/2203.02925v1
- Date: Sun, 6 Mar 2022 09:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:19:08.096350
- Title: Weakly Supervised Temporal Action Localization via Representative
Snippet Knowledge Propagation
- Title(参考訳): 代表的スニペット知識伝播による時間的行動局在の弱化
- Authors: Linjiang Huang, Liang Wang, Hongsheng Li
- Abstract要約: 微弱に監督された時間的行動の局所化は、行動の時間的境界をローカライズすることを目的としており、ビデオレベルのカテゴリラベルのみを用いてカテゴリを同時に識別することを目的としている。
既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。
提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。
- 参考スコア(独自算出の注目度): 36.86505596138256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised temporal action localization aims to localize temporal
boundaries of actions and simultaneously identify their categories with only
video-level category labels. Many existing methods seek to generate pseudo
labels for bridging the discrepancy between classification and localization,
but usually only make use of limited contextual information for pseudo label
generation. To alleviate this problem, we propose a representative snippet
summarization and propagation framework. Our method seeks to mine the
representative snippets in each video for propagating information between video
snippets to generate better pseudo labels. For each video, its own
representative snippets and the representative snippets from a memory bank are
propagated to update the input features in an intra- and inter-video manner.
The pseudo labels are generated from the temporal class activation maps of the
updated features to rectify the predictions of the main branch. Our method
obtains superior performance in comparison to the existing methods on two
benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in
terms of average mAP on THUMOS14.
- Abstract(参考訳): 微弱に監督された時間的行動局所化は、行動の時間的境界をローカライズすることを目的としており、同時にビデオレベルのカテゴリラベルのみを用いてカテゴリを識別する。
既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。
この問題を軽減するために,代表的要約・伝播フレームワークを提案する。
提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。
各ビデオに対して、それぞれの代表スニペットとメモリバンクの代表スニペットが伝播して、イントラおよびイントラビデオ方式で入力機能を更新する。
更新された特徴の時間クラス活性化マップから擬似ラベルを生成し、メインブランチの予測を是正する。
提案手法は,THUMOS14とActivityNet1.3の2つのベンチマークにおける既存手法と比較して優れた性能を示し,THUMOS14の平均mAPは1.2%向上した。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Timestamp-Supervised Action Segmentation from the Perspective of
Clustering [12.661218632080207]
既存のほとんどの手法は、各ビデオ内のすべてのフレームに対して擬似ラベルを生成し、セグメンテーションモデルを訓練する。
本稿では,クラスタリングの観点から,以下の2つの部分を含む新しいフレームワークを提案する。
反復クラスタリングは、クラスタリングによって擬似ラベルをあいまいな間隔に反復的に伝播し、擬似ラベルシーケンスを更新してモデルをトレーニングする。
論文 参考訳(メタデータ) (2022-12-22T13:35:00Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Refining Pseudo Labels with Clustering Consensus over Generations for
Unsupervised Object Re-identification [84.72303377833732]
教師なしのオブジェクト再識別は、アノテーションなしでオブジェクト検索のための識別表現を学習することを目的としている。
本稿では,クラスタリングコンセンサスを用いた連続学習世代間の擬似ラベル類似性を推定し,時間的に伝播およびアンサンブルされた擬似ラベルを用いた洗練された擬似ラベルを提案する。
提案する擬似ラベル精錬戦略は単純だが有効であり、既存のクラスタリングに基づく教師なし再同定手法にシームレスに統合することができる。
論文 参考訳(メタデータ) (2021-06-11T02:42:42Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z) - Action Graphs: Weakly-supervised Action Localization with Graph
Convolution Networks [25.342482374259017]
本稿では,グラフ畳み込みに基づく弱教師付き動作位置決め手法を提案する。
本手法は外観と動きを符号化した類似性グラフを用いて,THUMOS '14, ActivityNet 1.2, Charadesの動作ローカライゼーションを弱めに制御する手法である。
論文 参考訳(メタデータ) (2020-02-04T18:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。