論文の概要: Spatio-Temporal Context for Action Detection
- arxiv url: http://arxiv.org/abs/2106.15171v1
- Date: Tue, 29 Jun 2021 08:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 04:01:48.891239
- Title: Spatio-Temporal Context for Action Detection
- Title(参考訳): 行動検出のための時空間文脈
- Authors: Manuel Sarmiento Calder\'o, David Varas, Elisenda Bou-Balust
- Abstract要約: 本研究は,非集約時間情報の利用を提案する。
主な貢献は2つのクロスアテンションブロックの導入である。
AVAデータセットの実験は、提案手法の利点を示している。
- 参考スコア(独自算出の注目度): 2.294635424666456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in action detection has grown in the recentyears, as it plays a key
role in video understanding. Modelling the interactions (either spatial or
temporal) between actors and their context has proven to be essential for this
task. While recent works use spatial features with aggregated temporal
information, this work proposes to use non-aggregated temporal information.
This is done by adding an attention based method that leverages spatio-temporal
interactions between elements in the scene along the clip.The main contribution
of this work is the introduction of two cross attention blocks to effectively
model the spatial relations and capture short range temporal
interactions.Experiments on the AVA dataset show the advantages of the proposed
approach that models spatio-temporal relations between relevant elements in the
scene, outperforming other methods that model actor interactions with their
context by +0.31 mAP.
- Abstract(参考訳): 近年、ビデオ理解において重要な役割を担っているため、行動検出の研究が増加している。
アクターとそのコンテキスト間の相互作用(空間的あるいは時間的)をモデル化することは、このタスクに不可欠であることが証明されている。
近年の研究では,時空間情報を集約した空間的特徴を用いているが,非時空間情報の利用を提案する。
This is done by adding an attention based method that leverages spatio-temporal interactions between elements in the scene along the clip.The main contribution of this work is the introduction of two cross attention blocks to effectively model the spatial relations and capture short range temporal interactions.Experiments on the AVA dataset show the advantages of the proposed approach that models spatio-temporal relations between relevant elements in the scene, outperforming other methods that model actor interactions with their context by +0.31 mAP.
関連論文リスト
- Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - On the Importance of Spatial Relations for Few-shot Action Recognition [109.2312001355221]
本稿では,空間的関係の重要性を考察し,より正確な数発アクション認識法を提案する。
新たな空間アライメントクロストランス(SA-CT)は、空間関係を再調整し、時間情報を組み込む。
実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-08-14T12:58:02Z) - Extracting Fast and Slow: User-Action Embedding with Inter-temporal
Information [8.697025191437774]
時間的情報(時間間隔)を用いてユーザ行動を分析する手法を提案する。
ユーザのアクションシーケンスとその時間間隔を埋めて、時間間情報とともにアクションの低次元表現を得る。
本稿では、アクションシーケンスと時間間ユーザ行動情報の明示的なモデリングによって、解釈可能な解析が成功できることを実証する。
論文 参考訳(メタデータ) (2022-06-20T02:04:04Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。