論文の概要: Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2010.11594v1
- Date: Thu, 22 Oct 2020 10:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:59:02.150638
- Title: Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization
- Title(参考訳): 弱教師付き時間行動定位のための2ストリームコンセンサスネットワーク
- Authors: Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, Gang Hua
- Abstract要約: 本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
- 参考スコア(独自算出の注目度): 94.37084866660238
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Weakly-supervised Temporal Action Localization (W-TAL) aims to classify and
localize all action instances in an untrimmed video under only video-level
supervision. However, without frame-level annotations, it is challenging for
W-TAL methods to identify false positive action proposals and generate action
proposals with precise temporal boundaries. In this paper, we present a
Two-Stream Consensus Network (TSCN) to simultaneously address these challenges.
The proposed TSCN features an iterative refinement training method, where a
frame-level pseudo ground truth is iteratively updated, and used to provide
frame-level supervision for improved model training and false positive action
proposal elimination. Furthermore, we propose a new attention normalization
loss to encourage the predicted attention to act like a binary selection, and
promote the precise localization of action instance boundaries. Experiments
conducted on the THUMOS14 and ActivityNet datasets show that the proposed TSCN
outperforms current state-of-the-art methods, and even achieves comparable
results with some recent fully-supervised methods.
- Abstract(参考訳): W-TAL (Weakly-supervised Temporal Action Localization) は、ビデオレベルの監視のみの下で、すべてのアクションインスタンスを未トリミングビデオに分類し、ローカライズすることを目的としている。
しかし、フレームレベルのアノテーションがなければ、w-talメソッドが偽のポジティブなアクション提案を識別し、正確な時間的境界を持つアクション提案を生成することは困難である。
本稿では,これらの課題を同時に解決する2ストリームコンセンサスネットワーク(tscn)を提案する。
提案手法は, フレームレベルの疑似基底真理を反復的に更新し, モデルトレーニングの改善と偽陽性行動提案の除去のためのフレームレベルの監督を行う反復的改善訓練法である。
さらに,予測された注意を二分選択として行動させる新たな注意正規化損失を提案し,行動インスタンス境界の正確な局在化を促進する。
THUMOS14とActivityNetデータセットで実施された実験によると、提案されたTSCNは現在の最先端の手法よりも優れており、最近の完全に教師された手法で同等の結果が得られる。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Temporal Action Proposal Generation with Background Constraint [25.783837570359267]
時間的アクションプロポーザル生成(TAPG)は、時間的境界のある未トリミングビデオ中のアクションインスタンスを見つけることを目的とした課題である。
提案の信頼性を評価するため、既存の研究は、提案と根本真実の間の時間的相互統合(tIoU)によって監督される提案の行動スコアを予測するのが一般的である。
本稿では,低品質な提案をさらに抑制するための一般的な背景制約概念を革新的に提案する。
論文 参考訳(メタデータ) (2021-12-15T09:20:49Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。