論文の概要: A Hybrid Graph Network for Complex Activity Detection in Video
- arxiv url: http://arxiv.org/abs/2310.17493v1
- Date: Thu, 26 Oct 2023 15:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:29:43.448327
- Title: A Hybrid Graph Network for Complex Activity Detection in Video
- Title(参考訳): ビデオにおける複合活動検出のためのハイブリッドグラフネットワーク
- Authors: Salman Khan, Izzeddin Teeti, Andrew Bradley, Mohamed Elhoseiny, Fabio
Cuzzolin
- Abstract要約: 複雑なアクティビティ検出(CompAD)は、分析を長期的なアクティビティに拡張する。
本稿では,局所的な(短期的な)動的シーンを符号化したグラフに適用した注目と,全体の長期的活動をモデル化した時間グラフを組み合わせたハイブリッドグラフニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 40.843533889724924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretation and understanding of video presents a challenging computer
vision task in numerous fields - e.g. autonomous driving and sports analytics.
Existing approaches to interpreting the actions taking place within a video
clip are based upon Temporal Action Localisation (TAL), which typically
identifies short-term actions. The emerging field of Complex Activity Detection
(CompAD) extends this analysis to long-term activities, with a deeper
understanding obtained by modelling the internal structure of a complex
activity taking place within the video. We address the CompAD problem using a
hybrid graph neural network which combines attention applied to a graph
encoding the local (short-term) dynamic scene with a temporal graph modelling
the overall long-duration activity. Our approach is as follows: i) Firstly, we
propose a novel feature extraction technique which, for each video snippet,
generates spatiotemporal `tubes' for the active elements (`agents') in the
(local) scene by detecting individual objects, tracking them and then
extracting 3D features from all the agent tubes as well as the overall scene.
ii) Next, we construct a local scene graph where each node (representing either
an agent tube or the scene) is connected to all other nodes. Attention is then
applied to this graph to obtain an overall representation of the local dynamic
scene. iii) Finally, all local scene graph representations are interconnected
via a temporal graph, to estimate the complex activity class together with its
start and end time. The proposed framework outperforms all previous
state-of-the-art methods on all three datasets including ActivityNet-1.3,
Thumos-14, and ROAD.
- Abstract(参考訳): ビデオの解釈と理解は、自動運転やスポーツ分析など、さまざまな分野におけるコンピュータビジョンの課題である。
ビデオクリップ内で実行されるアクションを解釈するための既存のアプローチは、時間的行動局所化(TAL)に基づいている。
複雑な活動検出(CompAD)の新たな分野は、ビデオ内で発生する複雑な活動の内部構造をモデル化することによって、この分析を長期的な活動に拡張する。
本研究では,局所的(短期)動的シーンを符号化するグラフと,全長周期動作をモデル化した時間グラフを組み合わせたハイブリッドグラフニューラルネットワークを用いて,コンパッド問題に対処する。
私たちのアプローチは以下の通りです。
まず,各映像スニペットに対して,個々の物体を検知して追跡し,すべてのエージェントチューブと全体シーンから3d特徴を抽出することにより,(局所)シーン内のアクティブ要素(「エージェント」)に対して時空間的「チューブ」を生成する新しい特徴抽出手法を提案する。
二 次に、各ノード(エージェントチューブ又はシーンを表す)が他のすべてのノードに接続されたローカルシーングラフを構築します。
次に、このグラフに注意を払い、局所動的シーンの全体的な表現を得る。
三 最後に、すべてのローカルシーングラフ表現は、時間グラフを介して相互接続され、その開始と終了時間とともに複雑なアクティビティクラスを推定する。
提案されたフレームワークは、ActivityNet-1.3、Thumos-14、ROADを含む3つのデータセットで、これまでの最先端メソッドよりも優れている。
関連論文リスト
- Spatiotemporal Event Graphs for Dynamic Scene Understanding [14.735329256577101]
本稿では,自律運転から複雑な映像のアクティビティ検出に至るまで,動的シーン理解のための一連のフレームワークを提案する。
本稿では,局所的な(短期的な)動的シーンを符号化したグラフに適用した注目と,時間グラフによる全体長期活動のモデル化を併用したハイブリッドグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T22:30:13Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - From random-walks to graph-sprints: a low-latency node embedding
framework on continuous-time dynamic graphs [4.372841335228306]
本稿では,レイテンシが低く,最先端の高レイテンシモデルと競合する連続時間動的グラフ(CTDG)のフレームワークを提案する。
本フレームワークでは,マルチホップ情報を要約したタイムアウェアノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
グラフプリント機能と機械学習を組み合わせることで,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-17T12:25:52Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。