論文の概要: SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos
- arxiv url: http://arxiv.org/abs/2404.04565v1
- Date: Sat, 6 Apr 2024 09:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:39:11.465360
- Title: SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos
- Title(参考訳): SportsHHI:スポーツビデオにおける人間と人間のインタラクション検出のためのデータセット
- Authors: Tao Wu, Runyu He, Gangshan Wu, Limin Wang,
- Abstract要約: そこで我々は,人間と人間のインタラクションを検出するビデオ視覚的関係検出タスクを提案する。
スポーツHHIには、バスケットボールとバレーボールのハイレベルな相互作用クラスが34ある。
我々は、人間と人間の相互作用検出に成功するための重要な要素を明らかにするために、広範囲な実験を行う。
- 参考スコア(独自算出の注目度): 43.536874272236986
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video-based visual relation detection tasks, such as video scene graph generation, play important roles in fine-grained video understanding. However, current video visual relation detection datasets have two main limitations that hinder the progress of research in this area. First, they do not explore complex human-human interactions in multi-person scenarios. Second, the relation types of existing datasets have relatively low-level semantics and can be often recognized by appearance or simple prior information, without the need for detailed spatio-temporal context reasoning. Nevertheless, comprehending high-level interactions between humans is crucial for understanding complex multi-person videos, such as sports and surveillance videos. To address this issue, we propose a new video visual relation detection task: video human-human interaction detection, and build a dataset named SportsHHI for it. SportsHHI contains 34 high-level interaction classes from basketball and volleyball sports. 118,075 human bounding boxes and 50,649 interaction instances are annotated on 11,398 keyframes. To benchmark this, we propose a two-stage baseline method and conduct extensive experiments to reveal the key factors for a successful human-human interaction detector. We hope that SportsHHI can stimulate research on human interaction understanding in videos and promote the development of spatio-temporal context modeling techniques in video visual relation detection.
- Abstract(参考訳): 映像シーングラフ生成のような映像に基づく視覚的関係検出タスクは、きめ細かい映像理解において重要な役割を果たす。
しかし、現在の映像関係検出データセットには、この分野の研究の進展を妨げる2つの主な制限がある。
第一に、彼らは多人数シナリオにおける複雑な人間と人間の相互作用を探求しない。
第2に、既存のデータセットの関係型は比較的低レベルなセマンティクスを持ち、詳細な時空間推論を必要とせず、外観や単純な事前情報によって認識されることが多い。
それでも、スポーツや監視ビデオのような複雑な多人数ビデオを理解するためには、人間間の高度な対話を理解することが不可欠である。
この問題に対処するために,ビデオ人間と人間のインタラクション検出という新たな視覚的関係検出タスクを提案し,それのためにSportsHHIというデータセットを構築した。
スポーツHHIには、バスケットボールとバレーボールのハイレベルな相互作用クラスが34ある。
118,075人のバウンディングボックスと50,649のインタラクションインスタンスが11,398のキーフレームに注釈付けされている。
これを評価するために,2段階のベースライン法を提案し,人間と人間の相互作用検出を成功させる上で重要な要素を明らかにするための広範な実験を行った。
我々は,SportsHHIがビデオにおけるヒューマンインタラクション理解の研究を刺激し,ビデオ視覚関係検出における時空間モデリング技術の開発を促進することを願っている。
関連論文リスト
- Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。