論文の概要: Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator
- arxiv url: http://arxiv.org/abs/2303.03166v1
- Date: Mon, 6 Mar 2023 14:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:57:41.326569
- Title: Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator
- Title(参考訳): スパース多レベル境界生成器による時間行動提案の高速化
- Authors: Qing Song, Yang Zhou, Mengjie Hu, Chun Liu
- Abstract要約: ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
本稿では,境界分類と動作完全性回帰を用いた境界感性手法を改良したSMBG(Sparse Multilevel boundary Generator)を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 9.038216757761955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization in videos presents significant challenges in the
field of computer vision. While the boundary-sensitive method has been widely
adopted, its limitations include incomplete use of intermediate and global
information, as well as an inefficient proposal feature generator. To address
these challenges, we propose a novel framework, Sparse Multilevel Boundary
Generator (SMBG), which enhances the boundary-sensitive method with boundary
classification and action completeness regression. SMBG features a multi-level
boundary module that enables faster processing by gathering boundary
information at different lengths. Additionally, we introduce a sparse
extraction confidence head that distinguishes information inside and outside
the action, further optimizing the proposal feature generator. To improve the
synergy between multiple branches and balance positive and negative samples, we
propose a global guidance loss. Our method is evaluated on two popular
benchmarks, ActivityNet-1.3 and THUMOS14, and is shown to achieve
state-of-the-art performance, with a better inference speed (2.47xBSN++,
2.12xDBG). These results demonstrate that SMBG provides a more efficient and
simple solution for generating temporal action proposals. Our proposed
framework has the potential to advance the field of computer vision and enhance
the accuracy and speed of temporal action localization in video analysis.The
code and models are made available at
\url{https://github.com/zhouyang-001/SMBG-for-temporal-action-proposal}.
- Abstract(参考訳): ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
境界感応法は広く採用されているが、その限界には不完全な中間情報と大域情報の使用、および非効率な提案特徴生成が含まれる。
これらの課題に対処するために,境界線分類と行動完全性回帰を用いた境界感度法を改良した,スパースマルチレベル境界発生器(SMBG)を提案する。
SMBGは、異なる長さで境界情報を収集することで高速な処理を可能にするマルチレベル境界モジュールを備えている。
さらに,アクション内外の情報を識別するスパース抽出信頼度ヘッドを導入し,提案機能生成器を最適化する。
複数枝間の相乗効果と正負のサンプルのバランスを改善するために,グローバルなガイダンス損失を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
これらの結果は、SMBGが時間的行動提案を生成するためのより効率的で簡単なソリューションを提供することを示した。
提案するフレームワークは,映像解析における時間的行動ローカライゼーションの精度と速度を向上し,コンピュータビジョンの分野を推し進める可能性を秘めている。
関連論文リスト
- Estimation of Reliable Proposal Quality for Temporal Action Detection [71.5989469643732]
提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
論文 参考訳(メタデータ) (2022-04-25T14:33:49Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid
Network [29.7640925776191]
高精度な時間的行動提案を生成するための関係対応ピラミッドネットワーク(RapNet)を提案する。
RapNetでは、コンテキスト蒸留のための局所的な特徴間の双方向の長距離関係を利用するために、新しいリレーションアウェアモジュールが導入された。
論文 参考訳(メタデータ) (2020-03-09T13:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。