論文の概要: Spatio-Temporal Action Detection with Multi-Object Interaction
- arxiv url: http://arxiv.org/abs/2004.00180v1
- Date: Wed, 1 Apr 2020 00:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:44:29.291339
- Title: Spatio-Temporal Action Detection with Multi-Object Interaction
- Title(参考訳): 多物体相互作用による時空間行動検出
- Authors: Huijuan Xu, Lizhi Yang, Stan Sclaroff, Kate Saenko, Trevor Darrell
- Abstract要約: 本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
- 参考スコア(独自算出の注目度): 127.85524354900494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal action detection in videos requires localizing the action
both spatially and temporally in the form of an "action tube". Nowadays, most
spatio-temporal action detection datasets (e.g. UCF101-24, AVA, DALY) are
annotated with action tubes that contain a single person performing the action,
thus the predominant action detection models simply employ a person detection
and tracking pipeline for localization. However, when the action is defined as
an interaction between multiple objects, such methods may fail since each
bounding box in the action tube contains multiple objects instead of one
person. In this paper, we study the spatio-temporal action detection problem
with multi-object interaction. We introduce a new dataset that is annotated
with action tubes containing multi-object interactions. Moreover, we propose an
end-to-end spatio-temporal action detection model that performs both spatial
and temporal regression simultaneously. Our spatial regression may enclose
multiple objects participating in the action. During test time, we simply
connect the regressed bounding boxes within the predicted temporal duration
using a simple heuristic. We report the baseline results of our proposed model
on this new dataset, and also show competitive results on the standard
benchmark UCF101-24 using only RGB input.
- Abstract(参考訳): ビデオにおける時空間的行動検出は、アクションを「アクションチューブ」の形で空間的かつ時間的にローカライズする必要がある。
現在、ほとんどの時空間行動検出データセット(UCF101-24、AVA、DALYなど)には、アクションを実行する1人の人物を含むアクションチューブが注釈付けされているため、主要なアクション検出モデルは、単に人物検出と追跡パイプラインを使用してローカライゼーションを行う。
しかし、アクションが複数のオブジェクト間の相互作用として定義される場合、アクションチューブ内の各バウンディングボックスが1人ではなく複数のオブジェクトを含んでいるため、そのようなメソッドは失敗する可能性がある。
本稿では,マルチオブジェクトインタラクションを用いた時空間的行動検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブを付加した新しいデータセットを提案する。
さらに,空間的・時間的回帰を同時に行うエンドツーエンドの時空間行動検出モデルを提案する。
我々の空間回帰は、その行動に参加する複数の物体を囲むかもしれない。
テスト期間中は、単純なヒューリスティックを用いて、回帰境界ボックスを予測時間内に単純に接続する。
本稿では,提案手法のベースライン結果について報告するとともに,RGB入力のみを用いた標準ベンチマークUCF101-24の競合結果を示す。
関連論文リスト
- Spatial-Temporal Enhanced Transformer Towards Multi-Frame 3D Object
Detection [59.03596380773798]
我々は、DETRのようなパラダイムに基づいた、多フレーム3Dオブジェクト検出のための新しいエンドツーエンドフレームワークであるSTEMDを提案する。
具体的には、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
我々は,計算オーバーヘッドをわずかに加えるだけで,難解なシナリオに対処する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Minimum Efforts to Build an End-to-End Spatial-Temporal Action Detector [3.7885826338434514]
2段階のアクション検出方法は重く、現実世界の応用では適用が難しい。
本稿では,空間的時間的行動検出問題をエンドツーエンドに解決するME-STADという新しい手法を提案する。
提案したME-STADは、元の2段検出器よりも良い結果(2.2% mAP)を達成し、約80%のFLOPを削減した。
論文 参考訳(メタデータ) (2022-06-07T07:31:56Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Spatio-Temporal Context for Action Detection [2.294635424666456]
本研究は,非集約時間情報の利用を提案する。
主な貢献は2つのクロスアテンションブロックの導入である。
AVAデータセットの実験は、提案手法の利点を示している。
論文 参考訳(メタデータ) (2021-06-29T08:33:48Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection [23.880673582575856]
自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。
現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。
本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2021-04-16T16:05:34Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking [80.02322563402758]
オンラインマルチオブジェクトトラッキング(MOT)フレームワークの中核的なコンポーネントの1つは、既存のトラックレットと新しい検出を関連付けることである。
そこで我々は,トラックレットが自然運動を表す可能性を直接測定することにより,トラックレットの提案を評価する確率論的自己回帰生成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-16T06:43:11Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。