論文の概要: Graph Convolutional Module for Temporal Action Localization in Videos
- arxiv url: http://arxiv.org/abs/2112.00302v1
- Date: Wed, 1 Dec 2021 06:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 00:44:02.325396
- Title: Graph Convolutional Module for Temporal Action Localization in Videos
- Title(参考訳): ビデオにおける時間的行動定位のためのグラフ畳み込みモジュール
- Authors: Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou
Huang, Chuang Gan
- Abstract要約: アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
- 参考スコア(独自算出の注目度): 142.5947904572949
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Temporal action localization has long been researched in computer vision.
Existing state-of-the-art action localization methods divide each video into
multiple action units (i.e., proposals in two-stage methods and segments in
one-stage methods) and then perform action recognition/regression on each of
them individually, without explicitly exploiting their relations during
learning. In this paper, we claim that the relations between action units play
an important role in action localization, and a more powerful action detector
should not only capture the local content of each action unit but also allow a
wider field of view on the context related to it. To this end, we propose a
general graph convolutional module (GCM) that can be easily plugged into
existing action localization methods, including two-stage and one-stage
paradigms. To be specific, we first construct a graph, where each action unit
is represented as a node and their relations between two action units as an
edge. Here, we use two types of relations, one for capturing the temporal
connections between different action units, and the other one for
characterizing their semantic relationship. Particularly for the temporal
connections in two-stage methods, we further explore two different kinds of
edges, one connecting the overlapping action units and the other one connecting
surrounding but disjointed units. Upon the graph we built, we then apply graph
convolutional networks (GCNs) to model the relations among different action
units, which is able to learn more informative representations to enhance
action localization. Experimental results show that our GCM consistently
improves the performance of existing action localization methods, including
two-stage methods (e.g., CBR and R-C3D) and one-stage methods (e.g., D-SSAD),
verifying the generality and effectiveness of our GCM.
- Abstract(参考訳): 時間的行動ローカライゼーションはコンピュータビジョンにおいて長年研究されてきた。
既存の最先端のアクションローカライゼーション手法は、各動画を複数のアクション単位(すなわち、2段階のメソッドと1段階のメソッドのセグメント)に分割し、学習中の関係を明示的に活用することなく、それぞれのアクション認識/回帰を実行する。
本稿では,アクション・ユニット間の関係がアクション・ローカライゼーションにおいて重要な役割を担い,より強力なアクション・ディテクターが各アクション・ユニットの局所的内容をキャプチャするだけでなく,関連するコンテキストに対する広い視野を許容するべきだと主張する。
この目的のために,2段階および1段階のパラダイムを含む既存のアクションローカライゼーション手法に容易にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
具体的には、まず、各アクションユニットをノードとして表現し、2つのアクションユニット間の関係をエッジとして表現するグラフを構築する。
ここでは,異なる行動単位間の時間的接続を捉えるための関係と,その意味的関係を特徴付ける関係の2つの関係を用いる。
特に二段法における時間的接続について, 重なり合う動作ユニットと, 周囲を連結するが結合しない2つの異なるエッジについて検討する。
構築したグラフでは、さまざまなアクションユニット間の関係をモデル化するために、グラフ畳み込みネットワーク(gcns)を適用します。
実験の結果、GCMは2段階法(CBRやR-C3Dなど)や1段階法(D-SSADなど)を含む既存の動作ローカライゼーション法の性能を一貫して改善し、GCMの汎用性と有効性を検証した。
関連論文リスト
- JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - BIT: Bi-Level Temporal Modeling for Efficient Supervised Action
Segmentation [34.88225099758585]
教師付きアクションセグメンテーションは、ビデオを重複しないセグメントに分割することを目的としており、それぞれが異なるアクションを表す。
最近の研究は、高い計算コストを被るフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。
本稿では,アクションセグメントを表現するために明示的なアクショントークンを学習する,BIレベルの効率的な時間モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T20:59:15Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Modeling Multi-Label Action Dependencies for Temporal Action
Localization [53.53490517832068]
実世界のビデオには、アクションクラス間の固有の関係を持つ多くの複雑なアクションが含まれている。
非発生ビデオにおける時間的行動の局在化のタスクのためのこれらの行動関係をモデル化する注意に基づくアーキテクチャを提案する。
マルチラベルアクションローカリゼーションベンチマークの最先端の方法よりもパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2021-03-04T13:37:28Z) - Action Graphs: Weakly-supervised Action Localization with Graph
Convolution Networks [25.342482374259017]
本稿では,グラフ畳み込みに基づく弱教師付き動作位置決め手法を提案する。
本手法は外観と動きを符号化した類似性グラフを用いて,THUMOS '14, ActivityNet 1.2, Charadesの動作ローカライゼーションを弱めに制御する手法である。
論文 参考訳(メタデータ) (2020-02-04T18:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。