論文の概要: Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization
- arxiv url: http://arxiv.org/abs/2206.11493v1
- Date: Thu, 23 Jun 2022 06:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:38:46.820179
- Title: Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization
- Title(参考訳): 時間的行動定位のための行動のリファクタリングと共起特徴の学習
- Authors: Kun Xia, Le Wang, Sanping Zhou, Nanning Zheng, Wei Tang
- Abstract要約: アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
- 参考スコア(独自算出の注目度): 74.74339878286935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge of Temporal Action Localization is to retrieve subtle
human actions from various co-occurring ingredients, e.g., context and
background, in an untrimmed video. While prior approaches have achieved
substantial progress through devising advanced action detectors, they still
suffer from these co-occurring ingredients which often dominate the actual
action content in videos. In this paper, we explore two orthogonal but
complementary aspects of a video snippet, i.e., the action features and the
co-occurrence features. Especially, we develop a novel auxiliary task by
decoupling these two types of features within a video snippet and recombining
them to generate a new feature representation with more salient action
information for accurate action localization. We term our method RefactorNet,
which first explicitly factorizes the action content and regularizes its
co-occurrence features, and then synthesizes a new action-dominated video
representation. Extensive experimental results and ablation studies on THUMOS14
and ActivityNet v1.3 demonstrate that our new representation, combined with a
simple action detector, can significantly improve the action localization
performance.
- Abstract(参考訳): 時間的行動の局所化の主な課題は、コンテキストや背景など、共生するさまざまな成分から微妙な人間の行動を取り出すことである。
従来のアプローチは高度なアクション検出装置を考案することで大きな進歩を遂げてきたが、ビデオ内の実際のアクションコンテンツを支配するような共起成分にはまだ苦しめられている。
本稿では,ビデオスニペットの2つの直交的・相補的側面,すなわちアクション特徴と共起的特徴について検討する。
特に,これらの2種類の特徴をビデオスニペット内に分離し,それらを組み換えて,より適切な行動情報を持つ新たな特徴表現を生成し,正確な行動ローカライゼーションを行う。
refactornetというメソッドは、まずアクションの内容を明確に分解し、その共起機能を定式化し、次にアクションが支配する新しいビデオ表現を合成する。
thumos14 と activitynet v1.3 に関する広範囲な実験結果とアブレーション研究により,新しい表現と単純な動作検出器が組み合わさることで,行動局在性能が著しく向上することが示された。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning to Localize Actions from Moments [153.54638582696128]
本研究では,多種多様な行動カテゴリに対する行動ローカライゼーションを学習するトランスファーラーニングタイプの新しい設計を提案する。
本稿では、そのような設計をワンステージのアクションローカライズフレームワークに統合するアクション・ヘラルド・ネットワーク(AherNet)を提案する。
論文 参考訳(メタデータ) (2020-08-31T16:03:47Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。