論文の概要: Human-Object Interaction Detection via Disentangled Transformer
- arxiv url: http://arxiv.org/abs/2204.09290v1
- Date: Wed, 20 Apr 2022 08:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 14:48:16.297153
- Title: Human-Object Interaction Detection via Disentangled Transformer
- Title(参考訳): アンタングル変換器による物体間相互作用検出
- Authors: Desen Zhou, Zhichao Liu, Jian Wang, Leshan Wang, Tao Hu, Errui Ding,
Jingdong Wang
- Abstract要約: 本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 63.46358684341105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction Detection tackles the problem of joint localization
and classification of human object interactions. Existing HOI transformers
either adopt a single decoder for triplet prediction, or utilize two parallel
decoders to detect individual objects and interactions separately, and compose
triplets by a matching process. In contrast, we decouple the triplet prediction
into human-object pair detection and interaction classification. Our main
motivation is that detecting the human-object instances and classifying
interactions accurately needs to learn representations that focus on different
regions. To this end, we present Disentangled Transformer, where both encoder
and decoder are disentangled to facilitate learning of two sub-tasks. To
associate the predictions of disentangled decoders, we first generate a unified
representation for HOI triplets with a base decoder, and then utilize it as
input feature of each disentangled decoder. Extensive experiments show that our
method outperforms prior work on two public HOI benchmarks by a sizeable
margin. Code will be available.
- Abstract(参考訳): 人間と物体の相互作用検出は、人間の物体の相互作用の同時局在と分類の問題に取り組む。
既存のhoiトランスフォーマは、三重項予測に単一のデコーダを採用するか、2つの並列デコーダを使用して個別のオブジェクトと相互作用を別々に検出し、マッチングプロセスで三重項を構成する。
対照的に、三重項予測を人間と物体のペア検出と相互作用分類に分離する。
我々の主な動機は、人間-対象のインスタンスを検出し、相互作用を正確に分類するためには、異なる領域に焦点を当てた表現を正確に学習する必要があります。
この目的のために,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
まず, 不等角デコーダの予測を関連付けるために, 基本デコーダとhoiトリプレットの統一表現を生成し, それぞれの不等角デコーダの入力特徴として利用する。
大規模な実験により、我々の手法は2つの公開HOIベンチマークの先行作業よりも大きなマージンで性能を発揮した。
コードは利用可能だ。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Relational Context Learning for Human-Object Interaction Detection [34.319471023763384]
本稿では、3つのデコーダブランチ間でリッチなコンテキスト交換を行う多重関係ネットワーク(MUREN)を提案する。
提案手法は,HOI インスタンス発見のための包括的関係コンテキストを学習する。
論文 参考訳(メタデータ) (2023-04-11T06:01:10Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - GEN-VLKT: Simplify Association and Enhance Interaction Understanding for
HOI Detection [17.92210977820113]
本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク(GEN)を提案する。
協会にとって、以前の2枝の手法は複雑でコストのかかるポストマッチングに悩まされる。
相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。
論文 参考訳(メタデータ) (2022-03-26T01:04:13Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。