論文の概要: Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection
- arxiv url: http://arxiv.org/abs/2107.13648v1
- Date: Wed, 28 Jul 2021 21:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 23:20:38.400006
- Title: Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection
- Title(参考訳): 注目点:弱い修正行動検出のためのグラフ畳み込みネットワークを用いた文脈学習
- Authors: Michail Tsiaousis, Gertjan Burghouts, Fieke Hillerstr\"om and Peter
van der Putten
- Abstract要約: ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant paradigm in spatiotemporal action detection is to classify
actions using spatiotemporal features learned by 2D or 3D Convolutional
Networks. We argue that several actions are characterized by their context,
such as relevant objects and actors present in the video. To this end, we
introduce an architecture based on self-attention and Graph Convolutional
Networks in order to model contextual cues, such as actor-actor and
actor-object interactions, to improve human action detection in video. We are
interested in achieving this in a weakly-supervised setting, i.e. using as less
annotations as possible in terms of action bounding boxes. Our model aids
explainability by visualizing the learned context as an attention map, even for
actions and objects unseen during training. We evaluate how well our model
highlights the relevant context by introducing a quantitative metric based on
recall of objects retrieved by attention maps. Our model relies on a 3D
convolutional RGB stream, and does not require expensive optical flow
computation. We evaluate our models on the DALY dataset, which consists of
human-object interaction actions. Experimental results show that our
contextualized approach outperforms a baseline action detection approach by
more than 2 points in Video-mAP. Code is available at
\url{https://github.com/micts/acgcn}
- Abstract(参考訳): 時空間行動検出における支配的なパラダイムは、2Dまたは3D畳み込みネットワークによって学習された時空間的特徴を用いた行動の分類である。
いくつかのアクションは、ビデオに存在する関連オブジェクトやアクターなど、そのコンテキストによって特徴付けられる。
そこで本稿では,アクター・アクターやアクター・オブジェクトのインタラクションといった文脈的手がかりをモデル化し,映像における人間の行動検出を改善するために,自己注意とグラフ畳み込みネットワークに基づくアーキテクチャを導入する。
私たちはこれを弱監督された環境で達成することに興味があります。
アクションバウンディングボックスの観点で 可能な限り少ないアノテーションを使うこと。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
我々は,注目地図から検索したオブジェクトのリコールに基づいて,定量的なメトリクスを導入することにより,モデルが関連するコンテキストをいかに強調するかを評価する。
我々のモデルは3次元畳み込みRGBストリームに依存しており、高価な光フロー計算を必要としない。
我々は、人間とオブジェクトのインタラクションアクションからなるdalyデータセット上でモデルを評価する。
実験の結果,ビデオマップのベースライン動作検出アプローチは,コンテキスト化アプローチの方が2ポイント以上高いことがわかった。
コードは \url{https://github.com/micts/acgcn} で入手できる。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos [3.7486111821201287]
本研究では,階層型階層型アテンション機構とグラフベースモデリングを統合した新しい手法について述べる。
このアプローチの複雑さは、複数の2Dデータセットと3Dデータセットを使って経験的にテストされています。
論文 参考訳(メタデータ) (2023-10-01T13:45:48Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。