論文の概要: PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2103.05270v1
- Date: Tue, 9 Mar 2021 07:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:58:48.182142
- Title: PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization
- Title(参考訳): PcmNet:時空間行動定位のための位置感性コンテキストモデリングネットワーク
- Authors: Xin Qin, Hanbin Zhao, Guangchen Lin, Hao Zeng, Songcen Xu, Xi Li
- Abstract要約: 本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 11.685362686431446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization is an important and challenging task that aims
to locate temporal regions in real-world untrimmed videos where actions occur
and recognize their classes. It is widely acknowledged that video context is a
critical cue for video understanding, and exploiting the context has become an
important strategy to boost localization performance. However, previous
state-of-the-art methods focus more on exploring semantic context which
captures the feature similarity among frames or proposals, and neglect
positional context which is vital for temporal localization. In this paper, we
propose a temporal-position-sensitive context modeling approach to incorporate
both positional and semantic information for more precise action localization.
Specifically, we first augment feature representations with directed temporal
positional encoding, and then conduct attention-based information propagation,
in both frame-level and proposal-level. Consequently, the generated feature
representations are significantly empowered with the discriminative capability
of encoding the position-aware context information, and thus benefit boundary
detection and proposal evaluation. We achieve state-of-the-art performance on
both two challenging datasets, THUMOS-14 and ActivityNet-1.3, demonstrating the
effectiveness and generalization ability of our method.
- Abstract(参考訳): 時間的アクションのローカリゼーションは、アクションが発生し、クラスを認識する実世界の未トリミングビデオ内の時間的領域を特定することを目的とした重要かつ困難なタスクです。
ビデオコンテキストはビデオ理解にとって重要な問題であると広く認識されており、コンテキストの利用はローカリゼーションのパフォーマンスを高める重要な戦略となっている。
しかし、以前の最先端の手法では、フレームや提案間の特徴の類似性を捉える意味的コンテキストの探索や、時間的ローカリゼーションに不可欠な位置コンテキストの無視に重点が置かれている。
本稿では、位置情報と意味情報の両方をより正確な行動ローカライズに組み込むための時間的位置感性コンテキストモデリング手法を提案する。
具体的には,まず,有向時間位置符号化による特徴表現を補強し,その後,フレームレベルと提案レベルの両方において注意に基づく情報伝達を行う。
その結果、生成された特徴表現は、位置認識コンテキスト情報をエンコードする識別能力によって大幅に強化され、境界検出と提案評価の恩恵を受ける。
提案手法の有効性と一般化性を実証し,2つの挑戦的データセットである thumos-14 と activitynet-1.3 で最先端の性能を実現する。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。