論文の概要: Improved Actor Relation Graph based Group Activity Recognition
- arxiv url: http://arxiv.org/abs/2010.12968v2
- Date: Tue, 29 Dec 2020 16:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:28:25.504494
- Title: Improved Actor Relation Graph based Group Activity Recognition
- Title(参考訳): アクタ関係グラフに基づくグループアクティビティ認識の改善
- Authors: Zijian Kuang and Xinran Tie
- Abstract要約: 人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding is to recognize and classify different actions or
activities appearing in the video. A lot of previous work, such as video
captioning, has shown promising performance in producing general video
understanding. However, it is still challenging to generate a fine-grained
description of human actions and their interactions using state-of-the-art
video captioning techniques. The detailed description of human actions and
group activities is essential information, which can be used in real-time CCTV
video surveillance, health care, sports video analysis, etc. This study
proposes a video understanding method that mainly focused on group activity
recognition by learning the pair-wise actor appearance similarity and actor
positions. We propose to use Normalized cross-correlation (NCC) and the sum of
absolute differences (SAD) to calculate the pair-wise appearance similarity and
build the actor relationship graph to allow the graph convolution network to
learn how to classify group activities. We also propose to use MobileNet as the
backbone to extract features from each video frame. A visualization model is
further introduced to visualize each input video frame with predicted bounding
boxes on each human object and predict individual action and collective
activity.
- Abstract(参考訳): ビデオ理解とは、ビデオに現れるさまざまなアクションやアクティビティを認識し分類することである。
ビデオキャプションなど以前の多くの作品は、一般的なビデオ理解を生み出す上で有望なパフォーマンスを示している。
しかし、現状の動画キャプション技術を用いて、人間の行動とその相互作用のきめ細かい記述を生成することは依然として困難である。
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識に主眼を置いた映像理解手法を提案する。
本稿では,正規化相互相関 (ncc) と絶対差の和 (sad) を用いて対の出現相似性を計算し, グラフ畳み込みネットワークがグループ活動の分類を学べるようにアクタ関係グラフを構築することを提案する。
また,各ビデオフレームから特徴を抽出するためのバックボーンとしてmobilenetを使うことも提案する。
さらに可視化モデルを導入して、入力された各ビデオフレームを予測された境界ボックスで可視化し、個々のアクションと集団活動を予測する。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Gaze-Guided Graph Neural Network for Action Anticipation Conditioned on Intention [10.149523817328921]
本稿では,映像入力から視覚意味グラフを構築するGaze-Guided Action Precipationアルゴリズムを提案する。
本手法では,グラフニューラルネットワークを用いてエージェントの意図を認識し,その意図を満たすためにアクションシーケンスを予測する。
提案手法は最先端技術より優れ、18種類の意図認識の精度が7%向上した。
論文 参考訳(メタデータ) (2024-04-10T21:03:23Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Action Graphs: Weakly-supervised Action Localization with Graph
Convolution Networks [25.342482374259017]
本稿では,グラフ畳み込みに基づく弱教師付き動作位置決め手法を提案する。
本手法は外観と動きを符号化した類似性グラフを用いて,THUMOS '14, ActivityNet 1.2, Charadesの動作ローカライゼーションを弱めに制御する手法である。
論文 参考訳(メタデータ) (2020-02-04T18:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。