論文の概要: Representing Videos as Discriminative Sub-graphs for Action Recognition
- arxiv url: http://arxiv.org/abs/2201.04027v1
- Date: Tue, 11 Jan 2022 16:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:15:41.436676
- Title: Representing Videos as Discriminative Sub-graphs for Action Recognition
- Title(参考訳): 行動認識のための識別サブグラフとしての映像表現
- Authors: Dong Li and Zhaofan Qiu and Yingwei Pan and Ting Yao and Houqiang Li
and Tao Mei
- Abstract要約: ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 165.54738402505194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human actions are typically of combinatorial structures or patterns, i.e.,
subjects, objects, plus spatio-temporal interactions in between. Discovering
such structures is therefore a rewarding way to reason about the dynamics of
interactions and recognize the actions. In this paper, we introduce a new
design of sub-graphs to represent and encode the discriminative patterns of
each action in the videos. Specifically, we present MUlti-scale Sub-graph
LEarning (MUSLE) framework that novelly builds space-time graphs and clusters
the graphs into compact sub-graphs on each scale with respect to the number of
nodes. Technically, MUSLE produces 3D bounding boxes, i.e., tubelets, in each
video clip, as graph nodes and takes dense connectivity as graph edges between
tubelets. For each action category, we execute online clustering to decompose
the graph into sub-graphs on each scale through learning Gaussian Mixture Layer
and select the discriminative sub-graphs as action prototypes for recognition.
Extensive experiments are conducted on both Something-Something V1 & V2 and
Kinetics-400 datasets, and superior results are reported when comparing to
state-of-the-art methods. More remarkably, our MUSLE achieves to-date the best
reported accuracy of 65.0% on Something-Something V2 validation set.
- Abstract(参考訳): 人間の行動は、典型的には組合せ構造やパターン、すなわち主題、対象、そして時空間的相互作用である。
このような構造を発見することは、相互作用のダイナミクスを推論し、行動を認識する報奨となる。
本稿では,ビデオ中の各行動の識別パターンを表現・符号化するサブグラフの新たな設計を提案する。
具体的には,MUSLE(MUlti-scale Sub-graph LEarning)フレームワークを新たに構築し,ノード数に関するグラフを各スケールでコンパクトなサブグラフにクラスタ化する。
技術的には、MUSLEは各ビデオクリップに3Dバウンディングボックス、すなわちチューブレットをグラフノードとして生成し、チューブレット間のグラフエッジとして密接な接続を行う。
各アクションカテゴリに対して、ガウス混合層を学習し、認識のためのアクションプロトタイプとして識別サブグラフを選択することにより、グラフを各スケールでサブグラフに分解するオンラインクラスタリングを実行する。
Some-Something V1 & V2 と Kinetics-400 の2つのデータセットで大規模な実験を行い、最先端の手法と比較して優れた結果を報告する。
さらに、我々のMUSLEは、Something V2バリデーションセットで65.0%の最高の報告精度を達成した。
関連論文リスト
- A Simple and Scalable Graph Neural Network for Large Directed Graphs [11.792826520370774]
入力グラフ内のノード表現とエッジ方向認識の様々な組み合わせについて検討する。
そこで本研究では,A2DUGを簡易かつ包括的に分類する手法を提案する。
我々は、A2DUGが様々なデータセットで安定して動作し、最先端の手法と比較して11.29まで精度が向上することを示した。
論文 参考訳(メタデータ) (2023-06-14T06:24:58Z) - Sub-Graph Learning for Spatiotemporal Forecasting via Knowledge
Distillation [22.434970343698676]
サブグラフを効果的に学習するためのフレームワークKD-SGLを提案する。
グラフの全体構造と各サブグラフの複数の局所モデルを学ぶために,グローバルモデルを定義する。
論文 参考訳(メタデータ) (2022-11-17T18:02:55Z) - CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph
Similarity Learning [65.1042892570989]
自己教師付きグラフ類似性学習のためのコントラストグラフマッチングネットワーク(CGMN)を提案する。
我々は,効率的なノード表現学習のために,クロスビューインタラクションとクロスグラフインタラクションという2つの戦略を用いる。
我々はノード表現をグラフ類似性計算のためのプール演算によりグラフレベル表現に変換する。
論文 参考訳(メタデータ) (2022-05-30T13:20:26Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Multilevel Graph Matching Networks for Deep Graph Similarity Learning [79.3213351477689]
グラフ構造オブジェクト間のグラフ類似性を計算するためのマルチレベルグラフマッチングネットワーク(MGMN)フレームワークを提案する。
標準ベンチマークデータセットの欠如を補うため、グラフグラフ分類とグラフグラフ回帰タスクの両方のためのデータセットセットを作成し、収集した。
総合的な実験により、MGMNはグラフグラフ分類とグラフグラフ回帰タスクの両方において、最先端のベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-07-08T19:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。