論文の概要: Spatio-Temporal Action Detection with Multi-Object Interaction
- arxiv url: http://arxiv.org/abs/2004.00180v1
- Date: Wed, 1 Apr 2020 00:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:44:29.291339
- Title: Spatio-Temporal Action Detection with Multi-Object Interaction
- Title(参考訳): 多物体相互作用による時空間行動検出
- Authors: Huijuan Xu, Lizhi Yang, Stan Sclaroff, Kate Saenko, Trevor Darrell
- Abstract要約: 本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
- 参考スコア(独自算出の注目度): 127.85524354900494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal action detection in videos requires localizing the action
both spatially and temporally in the form of an "action tube". Nowadays, most
spatio-temporal action detection datasets (e.g. UCF101-24, AVA, DALY) are
annotated with action tubes that contain a single person performing the action,
thus the predominant action detection models simply employ a person detection
and tracking pipeline for localization. However, when the action is defined as
an interaction between multiple objects, such methods may fail since each
bounding box in the action tube contains multiple objects instead of one
person. In this paper, we study the spatio-temporal action detection problem
with multi-object interaction. We introduce a new dataset that is annotated
with action tubes containing multi-object interactions. Moreover, we propose an
end-to-end spatio-temporal action detection model that performs both spatial
and temporal regression simultaneously. Our spatial regression may enclose
multiple objects participating in the action. During test time, we simply
connect the regressed bounding boxes within the predicted temporal duration
using a simple heuristic. We report the baseline results of our proposed model
on this new dataset, and also show competitive results on the standard
benchmark UCF101-24 using only RGB input.
- Abstract(参考訳): ビデオにおける時空間的行動検出は、アクションを「アクションチューブ」の形で空間的かつ時間的にローカライズする必要がある。
現在、ほとんどの時空間行動検出データセット(UCF101-24、AVA、DALYなど)には、アクションを実行する1人の人物を含むアクションチューブが注釈付けされているため、主要なアクション検出モデルは、単に人物検出と追跡パイプラインを使用してローカライゼーションを行う。
しかし、アクションが複数のオブジェクト間の相互作用として定義される場合、アクションチューブ内の各バウンディングボックスが1人ではなく複数のオブジェクトを含んでいるため、そのようなメソッドは失敗する可能性がある。
本稿では,マルチオブジェクトインタラクションを用いた時空間的行動検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブを付加した新しいデータセットを提案する。
さらに,空間的・時間的回帰を同時に行うエンドツーエンドの時空間行動検出モデルを提案する。
我々の空間回帰は、その行動に参加する複数の物体を囲むかもしれない。
テスト期間中は、単純なヒューリスティックを用いて、回帰境界ボックスを予測時間内に単純に接続する。
本稿では,提案手法のベースライン結果について報告するとともに,RGB入力のみを用いた標準ベンチマークUCF101-24の競合結果を示す。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - JARViS: Detecting Actions in Video Using Unified Actor-Scene Context Relation Modeling [8.463489896549161]
2段階ビデオローカライゼーション(英語: Two-stage Video Localization, VAD)は、ビデオクリップの空間的および時間的次元内のアクションの局所化と分類を含む、強迫的なタスクである。
JARViS(Joint Actor-scene context Relation Modeling)と呼ばれる2段階のVADフレームワークを提案する。
JARViSは、トランスフォーマーアテンションを用いて、空間的および時間的次元にわたって世界中に分布するクロスモーダルアクションセマンティクスを集約する。
論文 参考訳(メタデータ) (2024-08-07T08:08:08Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - STMixer: A One-Stage Sparse Action Detector [43.62159663367588]
よりフレキシブルな1段アクション検出器のための2つのコア設計を提案する。
まず、クエリベースの適応的特徴サンプリングモジュールを分離し、ビデオ時間領域全体から特徴群をマイニングする柔軟性を備えた検出器を実現する。
第2に,より優れた特徴復号化のために,空間次元と時間次元の混合に動的に参画する分離された特徴混合モジュールを考案する。
論文 参考訳(メタデータ) (2024-04-15T14:52:02Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Spatio-Temporal Context for Action Detection [2.294635424666456]
本研究は,非集約時間情報の利用を提案する。
主な貢献は2つのクロスアテンションブロックの導入である。
AVAデータセットの実験は、提案手法の利点を示している。
論文 参考訳(メタデータ) (2021-06-29T08:33:48Z) - Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection [23.880673582575856]
自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。
現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。
本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2021-04-16T16:05:34Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。