論文の概要: Long Short-Term Relation Networks for Video Action Detection
- arxiv url: http://arxiv.org/abs/2003.14065v1
- Date: Tue, 31 Mar 2020 10:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:26:32.898924
- Title: Long Short-Term Relation Networks for Video Action Detection
- Title(参考訳): 映像動作検出のための長期短期関係ネットワーク
- Authors: Dong Li and Ting Yao and Zhaofan Qiu and Houqiang Li and Tao Mei
- Abstract要約: 本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
- 参考スコア(独自算出の注目度): 155.13392337831166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been well recognized that modeling human-object or object-object
relations would be helpful for detection task. Nevertheless, the problem is not
trivial especially when exploring the interactions between human actor, object
and scene (collectively as human-context) to boost video action detectors. The
difficulty originates from the aspect that reliable relations in a video should
depend on not only short-term human-context relation in the present clip but
also the temporal dynamics distilled over a long-range span of the video. This
motivates us to capture both short-term and long-term relations in a video. In
this paper, we present a new Long Short-Term Relation Networks, dubbed as LSTR,
that novelly aggregates and propagates relation to augment features for video
action detection. Technically, Region Proposal Networks (RPN) is remoulded to
first produce 3D bounding boxes, i.e., tubelets, in each video clip. LSTR then
models short-term human-context interactions within each clip through
spatio-temporal attention mechanism and reasons long-term temporal dynamics
across video clips via Graph Convolutional Networks (GCN) in a cascaded manner.
Extensive experiments are conducted on four benchmark datasets, and superior
results are reported when comparing to state-of-the-art methods.
- Abstract(参考訳): ヒューマン・オブジェクトあるいはオブジェクト・オブジェクト関係のモデリングが検出タスクに役立つことはよく認識されている。
とはいえ、人間のアクター、オブジェクト、シーン(人間コンテキスト)間の相互作用を探索し、ビデオアクション検出器を増強する場合には、特に問題となる。
この難しさは、ビデオ内の信頼できる関係は、ビデオの短期的人間-文脈関係だけでなく、ビデオの長期にわたって蒸留された時間的ダイナミクスにも依存すべきという側面から生じる。
これは、ビデオの中の短期的および長期的関係を捉える動機となります。
本稿では,ビデオ行動検出のための拡張機能と関連性を新たに集約し,伝播するLSTRと呼ばれる,Long Short-Term Relation Networksを提案する。
技術的には、地域提案ネットワーク(RPN)は、まずビデオクリップ毎に3Dバウンディングボックス、すなわちチューブレットを生成するように再変換される。
次にLSTRは、空間的注意機構を通じて各クリップ内の短期的人間-コンテキスト相互作用をモデル化し、グラフ畳み込みネットワーク(GCN)を介してビデオクリップ間の長期的時間的ダイナミクスをケースドライズする。
4つのベンチマークデータセットで大規模な実験を行い、最先端の手法と比較して優れた結果を報告する。
関連論文リスト
- How Much Temporal Long-Term Context is Needed for Action Segmentation? [16.89998201009075]
ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
論文 参考訳(メタデータ) (2023-08-22T11:20:40Z) - In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。
ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。
我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-18T05:42:01Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection [4.726777092009554]
Video Visual Relation Detection (VidD): セグメントベース、ウィンドウベース。
まず,2つの手法が持つ限界を指摘し,効率性と有効性という2つの利点を持つ新しい手法であるテンポラル・スパン・プロポーザル・ネットワーク(TSPN)を提案する。
論文 参考訳(メタデータ) (2021-07-15T07:01:26Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Temporal Relational Modeling with Self-Supervision for Action
Segmentation [38.62057004624234]
ビデオの時間関係をモデル化するための拡張時間グラフ推論モジュール(DTGRM)を紹介します。
特に,多レベル拡張時間グラフの構築により時間関係を捉え,モデル化する。
私たちのモデルは3つの挑戦的なデータセットで最先端のアクションセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T13:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。