論文の概要: Human-to-Human Interaction Detection
- arxiv url: http://arxiv.org/abs/2307.00464v2
- Date: Fri, 11 Aug 2023 10:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 16:34:08.547053
- Title: Human-to-Human Interaction Detection
- Title(参考訳): 人と人間のインタラクション検出
- Authors: Zhenhua Wang, Kaining Ying, Jiajun Meng, Jifeng Ning
- Abstract要約: ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
- 参考スコア(独自算出の注目度): 3.00604614803979
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A comprehensive understanding of interested human-to-human interactions in
video streams, such as queuing, handshaking, fighting and chasing, is of
immense importance to the surveillance of public security in regions like
campuses, squares and parks. Different from conventional human interaction
recognition, which uses choreographed videos as inputs, neglects concurrent
interactive groups, and performs detection and recognition in separate stages,
we introduce a new task named human-to-human interaction detection (HID). HID
devotes to detecting subjects, recognizing person-wise actions, and grouping
people according to their interactive relations, in one model. First, based on
the popular AVA dataset created for action detection, we establish a new HID
benchmark, termed AVA-Interaction (AVA-I), by adding annotations on interactive
relations in a frame-by-frame manner. AVA-I consists of 85,254 frames and
86,338 interactive groups, and each image includes up to 4 concurrent
interactive groups. Second, we present a novel baseline approach SaMFormer for
HID, containing a visual feature extractor, a split stage which leverages a
Transformer-based model to decode action instances and interactive groups, and
a merging stage which reconstructs the relationship between instances and
groups. All SaMFormer components are jointly trained in an end-to-end manner.
Extensive experiments on AVA-I validate the superiority of SaMFormer over
representative methods. The dataset and code will be made public to encourage
more follow-up studies.
- Abstract(参考訳): キューイング、ハンドシェイキング、戦闘、追跡などのビデオストリームにおける人間と人間の相互作用に関する包括的な理解は、キャンパス、広場、公園などの地域の公共安全の監視において非常に重要である。
振付映像を入力として使用し,同時に対話型グループを無視し,別段に検出と認識を行う従来のヒューマンインタラクション認識とは異なり,hid(human-to-human interaction detection)という新しいタスクを導入する。
HIDは、対象を検出し、個人的行動を認識し、対話的な関係に従って人々をグループ化する。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、フレームごとの対話的関係に関するアノテーションを追加することで、AVA-Interaction (AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
AVA-Iは85,254フレームと86,338のインタラクティブグループで構成され、各画像は4つの同時対話グループを含む。
第2に、視覚特徴抽出器と、Transformerベースのモデルを用いてアクションインスタンスと対話型グループをデコードする分割ステージと、インスタンスとグループの関係を再構築するマージステージを含む、HIDのための新しいベースラインアプローチSaMFormerを提案する。
すべてのSaMFormerコンポーネントはエンドツーエンドで共同でトレーニングされる。
AVA-Iに関する大規模な実験は、代表法よりもSaMFormerの方が優れていることを検証する。
データセットとコードは公開され、さらなるフォローアップ研究が促進される。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Learning Mutual Excitation for Hand-to-Hand and Human-to-Human
Interaction Recognition [22.538114033191313]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Joint Engagement Classification using Video Augmentation Techniques for
Multi-person Human-robot Interaction [22.73774398716566]
本稿では,親子のダイアドの交際関係を同定するための新しい枠組みを提案する。
家庭の社会ロボットと一緒に物語本を読む親のダイアドのデータセットを用いて、まずRGBフレームと骨格ベースの関節エンゲージメント認識モデルを訓練する。
第2に,ロボット親子間相互作用における学習モデルの使用に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-12-28T23:52:55Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。