論文の概要: Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection
- arxiv url: http://arxiv.org/abs/2104.08194v1
- Date: Fri, 16 Apr 2021 16:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:32:10.306535
- Title: Spatiotemporal Deformable Models for Long-Term Complex Activity
Detection
- Title(参考訳): 長期複合活動検出のための時空間変形モデル
- Authors: Salman Khan and Fabio Cuzzolin
- Abstract要約: 自動車や手術ロボットなどの自律システムでは、長期的な複雑な活動認識が不可欠です。
現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアクションの組み合わせを単にローカライズするように設計されている。
本フレームワークは, (i) 動作検出, (ii) 変形可能な部品形状のモデル化, (iii) 空間的機構の3つの主要な構成要素から構成される。
- 参考スコア(独自算出の注目度): 23.880673582575856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term complex activity recognition and localisation can be crucial for
the decision-making process of several autonomous systems, such as smart cars
and surgical robots. Nonetheless, most current methods are designed to merely
localise short-term action/activities or combinations of atomic actions that
only last for a few frames or seconds. In this paper, we address the problem of
long-term complex activity detection via a novel deformable, spatiotemporal
parts-based model. Our framework consists of three main building blocks: (i)
action tube detection, (ii) the modelling of the deformable geometry of parts,
and (iii) a sparsity mechanism. Firstly, action tubes are detected in a series
of snippets using an action tube detector. Next, a new 3D deformable RoI
pooling layer is designed for learning the flexible, deformable geometry of the
constellation of parts. Finally, a sparsity strategy differentiates between
activated and deactivate features. We also provide temporal complex activity
annotation for the recently released ROAD autonomous driving dataset and the
SARAS-ESAD surgical action dataset, to validate our method and show the
adaptability of our framework to different domains. As they both contain long
videos portraying long-term activities they can be used as benchmarks for
future work in this area.
- Abstract(参考訳): 長期にわたる複雑な活動認識と局所化は、スマートカーや手術ロボットなど、いくつかの自律システムの意思決定プロセスにおいて不可欠である。
しかしながら、現在のほとんどのメソッドは、短期的なアクション/アクティビティや、数フレームまたは秒間しか続かないアトミックアクションの組み合わせを単にローカライズするように設計されている。
本稿では,新しい変形可能な時空間部分モデルによる長期的複雑活動検出の問題に対処する。
本フレームワークは, (i) 動作管検出, (ii) 変形可能な部品形状のモデル化, (iii) 疎性機構の3つの主要な構成要素から構成される。
まず、アクションチューブ検出器を用いて一連のスニペットからアクションチューブを検出する。
次に、新しい3D変形可能なRoIプーリング層は、部品の星座の柔軟で変形可能な幾何学を学ぶために設計されている。
最後に、スパーシティ戦略はアクティベートと非アクティベートの特徴を区別する。
また,最近リリースされた道路自律運転データセットとsaras-esad手術行動データセットに対して,時間的複合活動アノテーションを提供し,提案手法を検証し,異なる領域への適応性を示す。
どちらも、長期的な活動を描いた長いビデオを含むため、この分野における将来の作業のベンチマークとして使用できる。
関連論文リスト
- Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Sequence-to-Sequence Modeling for Action Identification at High Temporal
Resolution [9.902223920743872]
高時間分解能でラベル付けされた微妙な短時間動作を含む新しい行動認識ベンチマークを導入する。
セグメント化に基づく現在の最先端モデルでは,これらのデータに適用した場合,ノイズの予測が可能であることを示す。
本稿では,音声認識技術に触発された高精度な行動識別手法を提案する。
論文 参考訳(メタデータ) (2021-11-03T21:06:36Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Efficient Spatialtemporal Context Modeling for Action Recognition [42.30158166919919]
本稿では,アクション認識のための高密度長範囲コンテキスト情報映像をモデル化するためのRCCA-3Dモジュールを提案する。
我々は, 水平方向, 垂直方向, 深さの各時間における同一線上の点間の関係をモデル化し, 3次元クリスクロス構造を形成する。
非局所的な手法と比較して、RCCA-3DモジュールはビデオコンテキストモデリングにおいてパラメータとFLOPの数を25%と11%削減する。
論文 参考訳(メタデータ) (2021-03-20T14:48:12Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。