論文の概要: Weakly Supervised Temporal Action Localization Using Deep Metric
Learning
- arxiv url: http://arxiv.org/abs/2001.07793v1
- Date: Tue, 21 Jan 2020 22:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 23:45:11.795065
- Title: Weakly Supervised Temporal Action Localization Using Deep Metric
Learning
- Title(参考訳): ディープメトリック学習を用いた弱教師付き時間行動定位
- Authors: Ashraful Islam, Richard J. Radke
- Abstract要約: 本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
- 参考スコア(独自算出の注目度): 12.49814373580862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization is an important step towards video
understanding. Most current action localization methods depend on untrimmed
videos with full temporal annotations of action instances. However, it is
expensive and time-consuming to annotate both action labels and temporal
boundaries of videos. To this end, we propose a weakly supervised temporal
action localization method that only requires video-level action instances as
supervision during training. We propose a classification module to generate
action labels for each segment in the video, and a deep metric learning module
to learn the similarity between different action instances. We jointly optimize
a balanced binary cross-entropy loss and a metric loss using a standard
backpropagation algorithm. Extensive experiments demonstrate the effectiveness
of both of these components in temporal localization. We evaluate our algorithm
on two challenging untrimmed video datasets: THUMOS14 and ActivityNet1.2. Our
approach improves the current state-of-the-art result for THUMOS14 by 6.5% mAP
at IoU threshold 0.5, and achieves competitive performance for ActivityNet1.2.
- Abstract(参考訳): 時間的行動のローカライゼーションはビデオ理解の重要なステップである。
現在のアクションローカライゼーション手法のほとんどは、アクションインスタンスの完全な時間的アノテーションを持つ未トリミングビデオに依存している。
しかし、アクションラベルとビデオの時間境界の両方に注釈をつけるのは高価で時間がかかる。
そこで本研究では,ビデオレベルのアクションインスタンスのみをトレーニング中の監視として必要とする,時間的行動局所化手法を提案する。
ビデオの各セグメントごとにアクションラベルを生成する分類モジュールと、異なるアクションインスタンス間の類似性を学習するための深度メートル法学習モジュールを提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスのとれたバイナリクロスエントロピー損失とメトリック損失を共同で最適化する。
広汎な実験は、両成分が時間的局所化において有効であることを示す。
提案アルゴリズムは,THUMOS14とActivityNet1.2の2つの未トリミングビデオデータセットを用いて評価する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。