論文の概要: HOTR: End-to-End Human-Object Interaction Detection with Transformers
- arxiv url: http://arxiv.org/abs/2104.13682v1
- Date: Wed, 28 Apr 2021 10:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 17:52:41.341230
- Title: HOTR: End-to-End Human-Object Interaction Detection with Transformers
- Title(参考訳): HOTR:変換器による人間と物体の相互作用検出
- Authors: Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
- Abstract要約: そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
- 参考スコア(独自算出の注目度): 26.664864824357164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction (HOI) detection is a task of identifying "a set of
interactions" in an image, which involves the i) localization of the subject
(i.e., humans) and target (i.e., objects) of interaction, and ii) the
classification of the interaction labels. Most existing methods have indirectly
addressed this task by detecting human and object instances and individually
inferring every pair of the detected instances. In this paper, we present a
novel framework, referred to by HOTR, which directly predicts a set of <human,
object, interaction> triplets from an image based on a transformer
encoder-decoder architecture. Through the set prediction, our method
effectively exploits the inherent semantic relationships in an image and does
not require time-consuming post-processing which is the main bottleneck of
existing methods. Our proposed algorithm achieves the state-of-the-art
performance in two HOI detection benchmarks with an inference time under 1 ms
after object detection.
- Abstract(参考訳): 人間と物体の相互作用(hoi:human-object interaction)検出(human-object interaction)は、画像中の「一連の相互作用」を識別するタスクであり、i)対象(つまり、人間)と対象(すなわち、対象)の相互作用の分類、ii)相互作用ラベルの分類を含む。
既存のほとんどのメソッドは、人間とオブジェクトのインスタンスを検出し、検出されたインスタンスのペアを個別に推測することで、このタスクに間接的に対処している。
本稿では,変換器エンコーダ-デコーダアーキテクチャに基づく画像から<human, object, interaction>トリプレットのセットを直接予測するhotrによって言及される新しいフレームワークを提案する。
本手法は,画像中の意味的関係を効果的に利用し,既存の手法の主なボトルネックである時間を要する後処理を必要としない。
提案アルゴリズムは,物体検出後1ms以下の推定時間を持つ2つのHOI検出ベンチマークにおいて,最先端性能を実現する。
関連論文リスト
- Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - UnionDet: Union-Level Detector Towards Real-Time Human-Object
Interaction Detection [35.2385914946471]
本稿では,新しい結合レベル検出器を用いたHOI検出のための一段階メタアーキテクチャを提案する。
ヒトと物体の相互作用の1段階検出器は、相互作用予測時間4x14xを著しく減少させる。
論文 参考訳(メタデータ) (2023-12-19T23:34:43Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Human-Object Interaction Detection via Disentangled Transformer [63.46358684341105]
本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-04-20T08:15:04Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - GID-Net: Detecting Human-Object Interaction with Global and Instance
Dependency [67.95192190179975]
GIDブロックと呼ばれる2段階の訓練可能な推論機構を導入する。
GID-Netは、ヒューマンブランチ、オブジェクトブランチ、インタラクションブランチで構成される、人間とオブジェクトのインタラクション検出フレームワークである。
我々は,提案したGID-Netを,V-COCOとHICO-DETを含む2つの公開ベンチマーク上で既存の最先端手法と比較した。
論文 参考訳(メタデータ) (2020-03-11T11:58:43Z) - PPDM: Parallel Point Detection and Matching for Real-time Human-Object
Interaction Detection [85.75935399090379]
本稿では,Human-Object Interaction (HOI) の単一段階検出手法を提案する。
これは、初めてのリアルタイムHOI検出方法である。
論文 参考訳(メタデータ) (2019-12-30T12:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。