論文の概要: Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection
- arxiv url: http://arxiv.org/abs/2312.01713v1
- Date: Mon, 4 Dec 2023 08:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:49:09.095179
- Title: Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection
- Title(参考訳): 一段階の人間と物体の相互作用検出のための異方性相互作用表現
- Authors: Xubin Zhong, Changxing Ding, Yupeng Hu, Dacheng Tao
- Abstract要約: ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
- 参考スコア(独自算出の注目度): 70.96299509159981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is a core task for human-centric
image understanding. Recent one-stage methods adopt a transformer decoder to
collect image-wide cues that are useful for interaction prediction; however,
the interaction representations obtained using this method are entangled and
lack interpretability. In contrast, traditional two-stage methods benefit
significantly from their ability to compose interaction features in a
disentangled and explainable manner. In this paper, we improve the performance
of one-stage methods by enabling them to extract disentangled interaction
representations. First, we propose Shunted Cross-Attention (SCA) to extract
human appearance, object appearance, and global context features using
different cross-attention heads. This is achieved by imposing different masks
on the cross-attention maps produced by the different heads. Second, we
introduce the Interaction-aware Pose Estimation (IPE) task to learn
interaction-relevant human pose features using a disentangled decoder. This is
achieved with a novel attention module that accurately captures the human
keypoints relevant to the current interaction category. Finally, our approach
fuses the appearance feature and pose feature via element-wise addition to form
the interaction representation. Experimental results show that our approach can
be readily applied to existing one-stage HOI detectors. Moreover, we achieve
state-of-the-art performance on two benchmarks: HICO-DET and V-COCO.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
近年のワンステージ手法では,対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用しているが,この手法を用いて得られた対話表現は絡み合っており,解釈性に欠ける。
対照的に、従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
本稿では,不連続な相互作用表現を抽出できることで,一段階の手法の性能を向上させる。
まず,異なるクロスアテンションヘッドを用いて人間の外観,オブジェクトの外観,グローバルコンテキストの特徴を抽出するために,Shunted Cross-Attention (SCA)を提案する。
これは異なる頭部によって生成されたクロス・アテンション・マップに異なるマスクを付けることによって達成される。
第2に,不整合デコーダを用いたインタラクション関連人間のポーズ特徴を学習するために,インタラクション対応ポス推定(IPE)タスクを導入する。
これは、現在のインタラクションカテゴリに関連する人間のキーポイントを正確にキャプチャする新しいアテンションモジュールによって達成される。
最後に,我々の手法は外観特徴とポーズ特徴を要素的付加によって融合し,相互作用表現を形成する。
実験の結果,既存の1段階のhoi検出器に容易に適用できることがわかった。
さらに, HICO-DET と V-COCO の2つのベンチマークで最先端性能を実現する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。