論文の概要: Enriching Local and Global Contexts for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2107.12960v1
- Date: Tue, 27 Jul 2021 17:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:37:09.032273
- Title: Enriching Local and Global Contexts for Temporal Action Localization
- Title(参考訳): 時間的行動局所化のための局所的・グローバル的文脈の充実
- Authors: Zixin Zhu (Xi'an jiaotong University), Wei Tang (University of
Illinois at Chicago), Le Wang (Xi'an Jiaotong University), Nanning Zheng
(Xi'an Jiaotong University), Gang Hua (Wormpex AI Research)
- Abstract要約: 私たちは、人気のある2段階の時間的局所化フレームワークにおいて、ローカルとグローバルの両方のコンテキストを豊かにしています。
提案モデルはContextLocと呼ばれ,L-Net,G-Net,P-Netの3つのサブネットワークに分割できる。
提案手法の有効性は,THUMOS14 (54.3% at IoU@0.5) と ActivityNet v1.3 (51.24% at IoU@0.5) を用いて実験的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively tackling the problem of temporal action localization (TAL)
necessitates a visual representation that jointly pursues two confounding
goals, i.e., fine-grained discrimination for temporal localization and
sufficient visual invariance for action classification. We address this
challenge by enriching both the local and global contexts in the popular
two-stage temporal localization framework, where action proposals are first
generated followed by action classification and temporal boundary regression.
Our proposed model, dubbed ContextLoc, can be divided into three sub-networks:
L-Net, G-Net and P-Net. L-Net enriches the local context via fine-grained
modeling of snippet-level features, which is formulated as a
query-and-retrieval process. G-Net enriches the global context via higher-level
modeling of the video-level representation. In addition, we introduce a novel
context adaptation module to adapt the global context to different proposals.
P-Net further models the context-aware inter-proposal relations. We explore two
existing models to be the P-Net in our experiments. The efficacy of our
proposed method is validated by experimental results on the THUMOS14 (54.3\% at
IoU@0.5) and ActivityNet v1.3 (51.24\% at IoU@0.5) datasets, which outperforms
recent states of the art.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)の問題に効果的に取り組むには、2つの相反する目標、すなわち時間的局所化のためのきめ細かい識別と、行動分類のための十分な視覚的不変性を共同で追求する視覚的表現が必要である。
この課題は、アクション提案が最初に生成され、次にアクション分類と時間境界回帰が続く2段階の時間的局所化フレームワークにおいて、ローカルコンテキストとグローバルコンテキストの両方を豊かにすることで解決される。
提案モデルはContextLocと呼ばれ,L-Net,G-Net,P-Netの3つのサブネットワークに分割できる。
L-Netは、クエリと検索のプロセスとして定式化されたスニペットレベルの機能のきめ細かいモデリングを通じて、ローカルコンテキストを豊かにする。
g-netは、ビデオレベルの表現の高レベルなモデリングを通じて、グローバルコンテキストを豊かにする。
さらに,グローバルコンテキストを異なる提案に適応させるために,新しいコンテキスト適応モジュールを導入する。
P-Netはさらにコンテキスト対応のプロトゾル間関係をモデル化する。
実験ではP-Netとなる2つの既存モデルを探索する。
提案手法の有効性は、thums14(iou@0.5で54.3\%)とactivitynet v1.3(iou@0.5で51.24\%)のデータセットにおける実験結果によって検証される。
関連論文リスト
- BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning [26.400567961735234]
対応プルーニングは、2つの関連する画像間の信頼性の高い対応を確立することを目的としている。
既存のアプローチでは、ローカルとグローバルのコンテキストを扱うために、プログレッシブな戦略を採用することが多い。
本稿では,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。
論文 参考訳(メタデータ) (2024-01-07T11:38:15Z) - HTNet: Anchor-free Temporal Action Localization with Hierarchical
Transformers [19.48000379201692]
時間的アクションローカライゼーション(TAL: Temporal Action Localization)は、ビデオ内のアクションの集合を識別するタスクである。
我々は,ビデオから開始時間,終了時間,クラス>三つ組のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。
本手法は,2つのTALベンチマークデータセット上で,正確なアクションインスタンスと最先端性能をローカライズする方法を実証する。
論文 参考訳(メタデータ) (2022-07-20T05:40:03Z) - PRA-Net: Point Relation-Aware Network for 3D Point Cloud Analysis [56.91758845045371]
我々はポイント関係認識ネットワーク(PRA-Net)という新しいフレームワークを提案する。
領域内構造学習(ISL)モジュールと領域間関係学習(IRL)モジュールで構成されている。
形状分類,キーポイント推定,部分セグメンテーションを含む複数の3次元ベンチマーク実験により,PRA-Netの有効性と性能が検証された。
論文 参考訳(メタデータ) (2021-12-09T13:24:43Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - PcmNet: Position-Sensitive Context Modeling Network for Temporal Action
Localization [11.685362686431446]
本論文では,位置情報と意味情報の両方を組み込んだ時間的位置感応型コンテキストモデリング手法を提案する。
THUMOS-14とActivityNet-1.3の2つの挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-09T07:34:01Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。