論文の概要: Effective Actor-centric Human-object Interaction Detection
- arxiv url: http://arxiv.org/abs/2202.11998v1
- Date: Thu, 24 Feb 2022 10:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 00:45:16.030004
- Title: Effective Actor-centric Human-object Interaction Detection
- Title(参考訳): アクター中心の効果的な人-物体相互作用検出
- Authors: Kunlun Xu and Zhimin Li and Zhijun Zhang and Leizhen Dong and Wenhui
Xu and Luxin Yan and Sheng Zhong and Xu Zou
- Abstract要約: 画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
- 参考スコア(独自算出の注目度): 20.564689533862524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Human-Object Interaction(HOI) Detection has achieved tremendous
advances in recent, it still remains challenging due to complex interactions
with multiple humans and objects occurring in images, which would inevitably
lead to ambiguities. Most existing methods either generate all human-object
pair candidates and infer their relationships by cropped local features
successively in a two-stage manner, or directly predict interaction points in a
one-stage procedure. However, the lack of spatial configurations or reasoning
steps of two- or one- stage methods respectively limits their performance in
such complex scenes. To avoid this ambiguity, we propose a novel actor-centric
framework. The main ideas are that when inferring interactions: 1) the
non-local features of the entire image guided by actor position are obtained to
model the relationship between the actor and context, and then 2) we use an
object branch to generate pixel-wise interaction area prediction, where the
interaction area denotes the object central area. Moreover, we also use an
actor branch to get interaction prediction of the actor and propose a novel
composition strategy based on center-point indexing to generate the final HOI
prediction. Thanks to the usage of the non-local features and the
partly-coupled property of the human-objects composition strategy, our proposed
framework can detect HOI more accurately especially for complex images.
Extensive experimental results show that our method achieves the
state-of-the-art on the challenging V-COCO and HICO-DET benchmarks and is more
robust especially in multiple persons and/or objects scenes.
- Abstract(参考訳): 人間と物体の相互作用(HOI)の検出は近年大きな進歩を遂げていますが、複数の人間や画像に現れる物体との複雑な相互作用により、必然的に曖昧さを招きます。
既存の手法では、全ての対象と対象の対の候補を生成し、局所的な特徴を2段階に並べて推測するか、1段階の手続きで直接相互作用点を予測するかのどちらかである。
しかし、2段法や1段法の空間的構成や推論手順の欠如は、複雑な場面での性能を制限している。
この曖昧さを避けるため,我々は新しいアクタ中心の枠組みを提案する。
主な考え方は、相互作用を推測するとき:
1)アクター位置で案内された画像全体の非局所的特徴を求め、アクターとコンテキストの関係をモデル化する。
2) オブジェクト分岐を用いて, 相互作用領域が対象中心領域を表す画素単位の相互作用領域予測を生成する。
さらに,アクター分岐を用いてアクターのインタラクション予測を行い,中心点インデックスに基づく新しい構成戦略を提案し,最終的なHOI予測を生成する。
提案手法は,非局所的特徴の活用と人物体合成戦略の部分結合性により,複雑な画像に対してより正確にHOIを検出することができる。
実験結果から,本手法はV-COCOおよびHICO-DETベンチマークの最先端性を達成し,特に複数の人物やオブジェクトシーンにおいてより堅牢であることがわかった。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。