論文の概要: TVNet: Temporal Voting Network for Action Localization
- arxiv url: http://arxiv.org/abs/2201.00434v1
- Date: Sun, 2 Jan 2022 23:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:25:56.936478
- Title: TVNet: Temporal Voting Network for Action Localization
- Title(参考訳): TVNet: アクションローカライゼーションのための時間投票ネットワーク
- Authors: Hanyuan Wang, Dima Damen, Majid Mirmehdi and Toby Perrett
- Abstract要約: 本稿では,未トリミングビデオにおけるアクションローカライズのための時間投票ネットワーク(TVNet)を提案する。
TVNetは、時間境界を見つけるための新しい投票証拠モジュールを組み込んでいる。
私たちはActivityNet-1.3で平均34.6%のmAPを達成しています。
- 参考スコア(独自算出の注目度): 25.207094617938008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Temporal Voting Network (TVNet) for action localization in
untrimmed videos. This incorporates a novel Voting Evidence Module to locate
temporal boundaries, more accurately, where temporal contextual evidence is
accumulated to predict frame-level probabilities of start and end action
boundaries. Our action-independent evidence module is incorporated within a
pipeline to calculate confidence scores and action classes. We achieve an
average mAP of 34.6% on ActivityNet-1.3, particularly outperforming previous
methods with the highest IoU of 0.95. TVNet also achieves mAP of 56.0% when
combined with PGCN and 59.1% with MUSES at 0.5 IoU on THUMOS14 and outperforms
prior work at all thresholds. Our code is available at
https://github.com/hanielwang/TVNet.
- Abstract(参考訳): 非トリミングビデオにおける行動局在化のための時間的投票ネットワーク(tvnet)を提案する。
これは、時間的境界を見つけるための新しい投票エビデンスモジュールを組み込み、時間的文脈的証拠を蓄積して、開始と終了の行動境界のフレームレベル確率を予測する。
我々の行動非依存エビデンスモジュールはパイプラインに組み込まれ、信頼度スコアとアクションクラスを計算します。
私たちはActivityNet-1.3で平均34.6%のmAPを達成しています。
TVNet は PGCN と 59.1% を THUMOS14 で 0.5 IoU で MUSES と組み合わせると 56.0% の mAP を達成し、全てのしきい値で先行作業より優れている。
私たちのコードはhttps://github.com/hanielwang/tvnetで利用可能です。
関連論文リスト
- Progression-Guided Temporal Action Detection in Videos [20.02711550239915]
本稿では,時間的行動検出(TAD)のための新しいフレームワークであるAction Progression Network(APN)を提案する。
このフレームワークは、アクション進化プロセスを検出して、ビデオ中のアクションを見つける。
完全なアクションプロセスを101段階に定量化し、アクションの進行を認識するためにニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2023-08-18T03:14:05Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - ActionFormer: Localizing Moments of Actions with Transformers [34.1448940256826]
自己アテンションに基づくトランスフォーマーモデルでは,画像分類や物体検出に顕著な結果が得られた。
我々は、時間内のアクションを識別し、カテゴリを単一のショットで認識するモデルであるActionFormerを紹介します。
THUMOS14では, tIoU=0.5で65.6%のmAPを達成し, 8.7絶対パーセンテージで最高の先行モデルを上回った。
論文 参考訳(メタデータ) (2022-02-16T08:34:11Z) - Action Unit Memory Network for Weakly Supervised Temporal Action
Localization [124.61981738536642]
弱い教師付き時間的行動局在(weakly supervised temporal action localization)は、訓練中のビデオレベルラベルのみを持つ未トリミングビデオにおける行動の検出とローカライズを目的としている。
AUMN(Action Unit Memory Network)は、時間的行動の弱い局在化を監督する。
論文 参考訳(メタデータ) (2021-04-29T06:19:44Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。